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内 容 提要 


几 年 前 , “数学 之 美 ”系列 文章 原 刊 载 于 谷歌 黑板 报 ， 获 得 上 百 万 次 点 击 ， 得 到 读者 高 
度 评价 。 读 者 说 ， 读 了 “数学 之 美 ”， 才 发 现 大 学 时 学 的 数学 知识 ， 比 如 马尔 可 夫 链 、 和 矩阵 
计算 ,甚至 余弦 函数 原来 都 如 此 杂 切 ,并 且 棚 棚 如 生 , 才 发 现 自 然 语言 和 信息 处 理 这 么 有 趣 。 

今年 ,作者 吴军 博士 几乎 把 所 有 文章 都 重 写 了 一 遍 ,， 为 的 是 把 高 深 的 数学 原理 讲 得 更 加 
通俗 易 懂 ， 让 非 专业 读者 也 能 领略 数学 的 魅力 。 读 者 通过 具体 的 例子 学 到 的 是 思考 问题 的 方 
式 一 一 如 何 化 繁 为 简 ， 如 何 用 数学 去 解决 工程 问题 ， 如 何 跳出 加 有 岂 维 不 断 去 思考 创新 。 
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本 书 谨 献 给 我 的 家 人 。 


愿 科学 之 精神 在 国民 中 得 到 普及 ， 愿 中 国 年 轻 的 一 代 涌 现 更 多 的 杰出 专业 
人 才 。 


出 版 说 明 


“数学 之 美 ” 最 初 是 从 2006 年 起 在 Google 中 国 的 官方 博客 一 - 谷歌 黑 
板报 上 连载 的 系列 博客 。 当 时 我 写 这 个 系列 的 原因 完全 是 应 原 黑 板报 版 
主 吴 丹 丹 女士 〈 现 任职 于 蕴 果 公司 ) 之 请 , 希望 介绍 一 点 Google 的 技术 ， 
盛情 难 却 ， 便 勉 为 其 难 接 下 了 这 个 任务 。 这 个 任务 的 难处 在 于 既 要 介绍 
Google 的 技术 ， 又 不 能 泄密 。 于 是 我 只 好 采用 了 仅 介绍 基本 原理 尤其 是 
数学 原理 的 方法 来 写 文章 。 加 上 我 自己 对 数学 比较 感 兴趣 ， 博 士 论文 也 
是 以 数学 为 主 的 题目 ， 因 此 ， 便 写成 了 介绍 我 所 从 事 的 信息 处 理 领 域 的 
数学 基础 的 系列 文章 。 当 初 我 并 没有 计划 写 多 少 篇 ， 只 打算 有 空 就 抽 时 
间 写 一 点 ， 写 到 哪儿 算 哪儿 ， 没 时 间 写 就 算 了 。 不 想 刊登 了 几 篇 后 ， 受 
到 IT 行业 广大 从 业 人 员 的 关注 和 喜爱 。 在 互联 网 上 被 转载 了 上 万 次 ， 读 
者 有 上 百 万 。 大 家 都 鼓励 我 写 下 去 ， 于 是 便 陆 陆续 续 写 了 20 多 篇 。 


后 来 我 在 Google 的 工作 越 来 越 多 , 同时 在 公司 外 还 有 很 多 要 履行 的 义务 ， 
便 很 少 有 精力 再 写 这 个 系列 了 。2009 年 ， 李 开 复 离开 Google， 人 谷歌 黑 
板报 的 第 二 任 版 主 崔 瑾 女士 也 随 他 去 了 创新 工场 (后 来 转 到 况 豆 艾 ) 。 
Google 再 也 没有 俘 促 我 继续 为 谷歌 黑板 报 号 博客 了 。 令 我 感动 的 是 ， 
这 么 多 年 后 ， 还 不 断 有 读者 关注 这 个 系列 ， 并 且 时 不 时 地 问 我 是 否 能 把 
这 个 系列 号 完 ， 是否 可 能 出 书 。 因 此 ， 从 2010 年 起 ,我 陆续 将 剩 下 的 九 
篇 写 完 。 


出 书 比 写 博 客 要 求 高 很 多 。 一 本 好 书 需 要 结构 系统 而 文字 严谨 ， 为 了 达 
到 出 书 的 要 求 ， 我 几乎 重 写 了 所 有 的 内 容 。 因 此 ， 这 本 书 虽 然 在 每 章 的 
标题 和 主题 上 与 原来 的 博客 相同 ， 但 是 内 容 和 文字 都 是 新 的 。 希 望 广大 
读者 ， 无 论 是 过 去 读 过 黑板 报 上 连载 系列 的 老 朋 友 ， 还 是 第 一 次 读 这 本 
书 的 新 朋友 ， 都 能 有 全 新 的 收获 。 


在 系统 性 方面 ， 为 了 便于 非 IT 读者 的 阅读 ， 我 对 每 个 专题 都 给 出 了 背景 
介绍 ; 同时 ， 为 了 起 到 给 从 事 相关 工作 的 工程 师 做 参考 的 目的 ， 在 一 些 
专题 的 最 后 ， 我 都 给 出 了 “延伸 阅读 ”一 节 。 非 开 读者 可 以 完全 跳 过 这 
些 延伸 阅读 部 分 ， 这 样 并 不 会 影响 阅读 其 他 内 容 。 本 书 中 系统 性 方面 的 
第 二 个 改进 就 是 调整 了 章节 的 位 置 , 以 帮助 读者 阅读 。 在 严谨 性 方面 ， 
我 在 腾讯 工程 师 王 益 等 人 的 帮助 下 ， 更 正 了 原来 博客 中 的 一 些 错误 ， 并 
尽 可 能 补充 完善 很 多 公式 推导 的 过 程 。 


本 书 的 素材 来 源 于 我 本 人 的 工作 。 语 言 信 息 处 理 、 互 联网 技术 、 数 据 挖 
据 和 机 器 学 习 都 是 博大 精深 而 又 快速 发 展 的 领域 ,我 所 做 的 研究 工作 也 
只 涵盖 了 其 中 很 小 的 一 部 分 。 对 于 我 没有 涉足 过 的 领域 ， 我 没有 信心 也 
没有 资格 写 。 因 此 ， 这 本 书 在 内 容 上 并 没有 全 面 覆盖 上 述 领域 ， 比 如 对 
当今 数据 挖掘 领 域 的 算法 、 互 联网 上 各 种 推荐 系统 的 数学 模型 都 鲜 有 提 
及 。 对 这 些 内 容 有 兴趣 的 读者 可 以 查阅 相应 的 书籍 文章 ， 也 希望 今后 有 
这 方面 的 专家 能 够 将 自己 工作 的 心得 写 出 来 ， 供 大 家 学 习 参 考 。 


在 《数学 之 美 》 成 书 之 际 ， 我 要 感谢 所 有 那些 把 我 带 到 数学 王国 和 信息 
处 理 领域 的 人 。 特 别 要 感谢 的 是 我 的 父亲 ， 他 让 我 在 幼年 就 对 数学 和 自 
然 科学 产生 了 浓厚 的 兴趣 ， 并 帮助 我 打 好 数学 基础 。 接 下 来 要 特别 感谢 
的 是 我 在 中 国 和 美国 的 三 位 导师 ， 王 作 英 教授 、 库 坦 普 教授 和 贾 里 尼克 
教授 ， 他 们 三 人 都 是 有 着 很 深 数 学 造 论 的 信息 论 专家 ， 他 们 把 我 领 进 语 
音 和 语言 处 理 的 王国 ， 不 仅 帮 助 我 打下 比较 深厚 的 数学 功底 ， 而 且 让 我 
看 到 了 数学 的 威力 和 魅力 。 最 后 要 感谢 Google 的 谢 尔 盖 : 布 林 院 士 、 韦 
恩 . 罗 森 先生 和 彼得 . 诺 威 格 博士 ， 他 们 把 我 招 进 Google， 让 我 有 机 会 


进 人 网 络 搜索 领域 。 尤 其 是 诺 威 格 博士 , 作为 我 在 Google 的 直接 上 级 ， 
一 直 给 予 我 做 任何 我 想 做 的 工作 的 权力 ， 因 此 ， 我 才 得 以 精通 网 络 搜索 
的 每 一 个 细节 。 在 Google， 我 还 要 感谢 我 的 同事 阿 米 特 ' 辛 格 博士 ， 他 
是 我 在 搜索 领域 的 导师 。 


在 这 本 书 的 写作 过 程 中 ,我 得 到 了 很 多 人 的 帮助 和 鼓励 。Just Pub 团队 的 
审 稿 编辑 李 琳 戏 先 生 对 书稿 进行 了 数 次 精心 的 审 该 ， 感 谢 他 的 认真 和 专 
业 。 华 中 科技 大 学 数学 与 统计 学 院 的 周 签 教授 也 拨 元 通 谈 了 全 书 ， 感 谢 
他 的 鼓励 和 细心 。 腾 讯 公 司 的 王 益 博 士 ( 原 Google 工程 师 ) 帮 有 我 编辑 和 
校对 了 书 中 诸多 的 公式 ， 并 完善 了 书 中 的 一 些 细节 部 分 。 匡 丹 丹 女士 在 
将 我 的 拙 作 刊 登 在 谷歌 黑板 报 前 ， 对 我 的 博客 进行 了 润色 ， 尤 其 是 增加 
了 不 少 画 龙 点 睛 之 笔 。 在 我 将 博客 编辑 成 书 时 ，Google 的 叶 艳 女 土 通读 
了 所 有 的 章节 , 并 给 出 了 修改 意见 , 以 保证 全 书 对 于 非 专业 读者 的 可 读 性 。 


清华 大 学 的 李 星 教授 、 李 开 复 博士 、 本 书 的 出 版 人 周 铸 女士 和 原 Google 
中 国 的 总 监 王 怀 南 先生 一 直 是 这 个 博客 系列 的 热心 推荐 人 ， 并 且 一 直 世 
励 我 将 它 编纂 成 书 。 我 以 前 在 清华 大 学 的 同事 郭 进 博 士 是 自然 语言 处 理 
专家 ， 经 常 和 我 讨论 中 文 处 理 的 问题 ， 并 且 给 了 我 很 多 启发 。 在 此 ， 我 
向 他 们 表示 诚 丽 的 感谢 。 


同时 我 要 感谢 我 的 家 人 给 我 的 帮助 ， 特 别 是 我 的 两 个 女儿 匡 梦 华 和 吴 梦 
声 ， 她 俩 绘制 了 全 书 的 许多 插图 。 


最 后 要 感谢 所 有 热心 的 博客 读者 以 及 在 互联 网 上 传播 这 个 博客 的 媒体 、 
网 站 和 人 个人。 希望 这 本 书 能 够 帮助 读者 从 广度 和 深度 上 了 解 信息 科学 。 


吴军 


2012 年 4 月 于 深圳 


《数学 之 美 》 是 一 本 非常 值得 读 的 书 。 这 本 书展 现 了 吴军 博士 在 他 多 年 
的 科研 经 历 中 对 科学 问题 的 深入 思考 。 


我 于 1991 年 从 美国 回 到 清华 大 学 电子 工程 系 工作 , 与 吴军 博士 是 同事 ， 
对 他 在 汉语 语音 识别 方面 的 深入 研究 印象 非常 深刻 。 后 来 他 到 美国 工作 ， 
出 版 了 一 本 介绍 硅谷 的 书 《 浪 潮 之 疾 》， 使 我 对 他 的 写作 激情 和 水 平 有 
了 新 的 认识 。 


这 些 年 来 我 在 清华 大 学 教书 ,一 直 思 考 着 如 何 让 学 生 能 真正 欣赏 和 热爱 
科学 研究 ， 这 将 有 助 于 他 们 深入 理解 自己 所 从 事 的 研究 的 价值 ， 进 而 能 
逐渐 成 长 为 所 在 领域 的 大 师 和 领军 人 物 。 在 这 一 过 程 中 ,恰好 发 现 了 吴 
军 博 士 在 谷歌 中 国 的 官方 博客 一 谷歌 黑板 报 上 连载 的 “数学 之 美 ” 系 
列 文章 ， 我 非常 欣赏 这 些 文章 。 因 此 ， 在 很 多 场合 都 建议 学 生 跟 踪 阅 读 
这 个 系列 的 博客 文章 。 今 天 本 书 出 版 ， 与 原先 的 博客 文章 相 比 ， 基 内容 
的 系统 性 和 深度 又 上 升 到 了 一 个 新 的 境界 。 


我 读 《 数 学 之 美 》 有 下 面 儿 点 体会 ， 与 大 家 分 享 。 


1. 追根 疯 深 


《数学 之 美 4 用 了 大 量 篇 幅 介 绍 各 个 领域 的 典故 , 读 来 令 人 兴趣 次 然 。 

典故 里 最 核心 的 是 相关 历史 事件 中 的 人 物 。 我 们 必须 要 间 : 提出 巧妙 数 
学 思想 的 人 是 谁 ? 为 什么 是 “他 /她 ”提出 了 这 个 思想 ?其 思维 方法 有 
何 特点 ? 成 为 一 个 领域 的 大 师 有 其 偶然 性 ， 但 更 有 其 必然 性 。 其 必然 性 
就 是 大 师 们 的 思维 方法 。 


2. 体会 方法 
从 事 科学 研究 ， 最 重要 的 是 掌握 思维 方法 。 在 这 里 ， 我 举 两 个 例子 。 


牛顿 是 伟大 的 物理 学 家 和 数学 家 ， 他 在 《自然 哲学 的 数学 原理 》 中 叙述 
了 四 条 法 则 。 其 中 有 “法 则 1: 除 那些 真实 而 已 足够 说 明 其 现象 者 外 ， 不 
必 去 寻找 自然 界 事物 的 其 他 原因 ”。 这 条 法 则 后 来 被 人 们 称 作 “简单 性 
原则 ”。 正如 爱 因 斯 坦 所 说 : “从 希腊 哲学 到 现代 物理 学 的 整个 科学 史 中 ， 
不 断 有 人 力图 把 表面 上 极为 复杂 的 自然 现象 妇 结 为 几 个 简单 的 基本 概念 
和 关系 。 这 就 是 整个 自然 哲学 的 基本 原理 。 这 个 原理 也 贯穿 T《 数 学 之 美 》 
本 鼎 。 


Www 的 发 明 人 更 姆 . 伯 纳 斯 . 李 谈 到 设计 原理 时 说 过 : “简单 性 和 模 
块 化 是 软件 工程 的 基石 ;分布 式 和 容错 性 是 互联 网 的 生命 。” 虽然 在 软 
件 工程 和 互联 网 领域 的 从 业 人 员 数 量 极其 庞大 ， 但 能 够 真正 体会 到 这 些 
核心 思想 的 人 能 有 多 少 呢 ? 


我 给 学 生出 过 这 样 的 考题 : 把 过 去 十 年 来 重要 IT 杂志 的 封面 上 重点 推荐 
的 技术 专题 找 来 看 看 , 瞧 一 瞧 郧 些 技 术 成 功 了 , 哪些 技术 是 县 兹 一 现 ， 
分 析 一 下 原因 ? 其 答案 很 有 意思 : “有 正确 设计 思想 方法 的 技术 ”未 必 
能 够 成 功 , 因为 还 有 非 技术 的 因素 ; 但 “没有 正确 设计 思想 方法 的 技术 ” 
一 定 失 败 ， 无 一 例外 。 因 此 ， 我 也 建议 本 书 的 读者 结合 阅读 ， 体 会 凝练 
创造 《数学 之 美 》 的 方法 论 。 


3. 超越 欣赏 


数学 既是 对 自然 界 事实 的 总 结 和 归纳 ， 如 英国 的 哲学 家 培根 所 说 “一 切 
多 依赖 于 我 们 把 眼睛 紧 杂 在 自然 界 的 事实 之 上 ”; 文 是 抽象 思考 的 结果 ， 
如 法 国 哲 学 家 笛 卡 尔 所 说 “我 思 故 我 在 ”。 这 两 个 方法 成 就 了 目前 绚丽 
多 彩 、 魅 力 非凡 的 数学 , 非常 值得 欣赏 。《 数 学 之 美 》 把 数学 在 IT 领域 ， 
特别 是 语音 识别 和 搜索 引擎 方面 的 美丽 之 处 予以 了 精彩 表达 。 但 在 这 里 
我 想 说 的 是 ， 欣赏 美 不 是 终极 目的 ， 更 值得 追求 的 是 创造 美的 境界 。 希 
望 本 书 的 读者 ， 特 别 是 年 轻 读者 能 够 欣赏 数学 在 IT 技术 中 的 美 ， 学 习 大 
师 们 的 思想 方法 ,使 自己 成 为 大 师 ， 创 造 新 的 数学 之 美 。 


李 星 


2012 年 4 月 于 北京 


去 年 我 曾经 给 吴军 的 《浪潮 之 周 》 写 序 ， 今 年 很 高 兴 得 知 他 的 《数学 
之 美 》 也 即将 出 版 了 ! 


和 《浪潮 之 冉 》 一 样 ，《 数 学 之 美 》 也 是 当年 作为 Google 资深 研究 员 的 
吴军 在 谷歌 黑板 报 上 应 邀 扎 与 的 一 系列 文章 。 说 实在 的 ， 刚 开始 ， 黑 板 
报 的 版 主 还 有 点 担心 这 个 系列 会 不 会 计 读 者 觉得 太 理 论 而 感到 枯燥 ， 但 
很 快 这 个 顾虑 就 被 打消 了 。《 数 学 之 美 》 用 生动 形象 的 语言 ， 结 合 数学 
发 展 的 历史 和 实际 的 案例 ， 谈 古 论 今 ， 系 统 地 阐述 了 与 现代 科技 领域 相 
关 的 重要 的 数学 理论 的 起 源 、 发 展 及 其 作用 ， 深入浅出 ， 受 到 广大 读者 
尤其 是 科技 界 人 士 的 喜爱 。 


之 前 就 曾 说 过 ， 在 我 认识 的 顶尖 研究 员 和 工程 师 里 ， 吴 军 是 极 少数 具 
有 强大 叙事 能 力 和 对 科技 、 信 息 领 域 的 发 展 变 化 有 很 深 的 纵 同 洞察 
力 ， 并 能 有 效 归 纳 总 结 的 人 之 一 。 在 《数学 之 美 》 里 ， 吴 军 再 次 展示 
了 这 一 特点 。 与 《浪潮 之 话 》 不 同 的 是 ， 这 次 吴军 集中 阐述 了 他 对 数 
学 和 信息 处 理 这 些 专业 学 科 的 理解 ， 尤 其 是 他 在 语音 识别 、 目 然 语言 
处 理 和 信息 搜索 领域 多 年 来 的 积累 。 从 数字 和 和 信息 的 由 来 ， 到 搜索 
引 警 对 信息 进行 处 理 背 后 的 数学 原理 ， 到 与 搜索 相关 的 众多 领域 后 面 


的 奇妙 的 数学 应 用 ， 吴 军 都 媚 娓 道 来 。 他 把 数学 后 面 的 本 质 思维 写 得 
透彻 、 生 动 。 不 得 不 说 ， 他 的 文字 ， 引 人 入 胜 ， 也 确实 让 我 们 体会 到 
数学 的 美 。 在 他 的 笔下 ， 数 学 不 是 我 们 一 般 联 想到 的 枯燥 深奥 的 符 
号 ， 而 是 实 实在 在 源 于 生活 的 有 趣 的 现象 和 延伸 。 数 学 ， 其 实 无 处 
不 在 ,而 且 有 一 种 让 人 惊叹 的 韵律 和 美 ! 


伽利略 曾经 说 过 ，“ 数 学 是 上 帝 描 写 自 然 的 语言 ”; 爱 因 斯 坦 也 曾 说 
过 ，“ 纯 数学 使 我 们 能 够 发 现 概念 和 联系 这 些 概念 的 规律 ， 这 些 概念 
和 规律 给 了 我 们 理解 自然 现象 的 铀 是 。 ”我 多 年 来 一 直 也 对 信息 处 理 、 
语音 识别 领域 有 着 一 定 的 研究 ， 深 深 体会 到 数学 在 所 有 科学 领域 起 到 
的 基础 和 根本 的 作用 。“ 哪 里 有 数 ， 哪 里 就 有 美 ”。 在 这 里 ,我 把 《 数 
学 之 美 》 真 诚 推荐 给 每 一 位 对 自然 、 科 学 、 生 活 有 兴趣 有 热情 的 朋友 ， 
不 管 你 是 搞 理 科 还 是 搞 文科 的 , 读 一 读数 学 的 东西 , 会 让 你 受益 民 多 ， 
同时 能 感受 到 宇宙 和 世界 的 美好 与 奇妙 。 


吴军 把 之 前 谷歌 黑板 报 上 的 “数学 之 美 ”系列 文章 编辑 成 现在 的 这 本 
书 ， 花 费 了 大 量 的 心血 和 时 间 。 他 本 着 十 分 严谨 的 态度 ， 在 繁忙 的 工 
作 之 余 ， 补 充 了 之 前 的 系列 ， 并 几乎 重 写 了 所 有 的 文章 ， 既 照 硕 了 普 
通读 者 的 兴趣 ， 又 兼顾 了 专业 读者 对 深度 的 要 求 ， 很 让 人 钦 癸 。 


有 时 我 在 想 ， 现 在 的 社会 多 了 一 点 压力 和 浮躁 ， 少 了 一 点 踏实 和 对 目 
然 科 学 本 质 的 好 奇 求知 。 吴 军 的 这 本 《数学 之 美 》 真 的 非常 好 。 非 常 
希望 吴军 今后 能 写 出 更 多 这 样 深入 浅 出 的 好 书 ， 它 们 会 是 给 这 个 社会 
和 年 轻 人 最 好 的 礼物 。 


夺 开 复 


2012 年 4 月 于 北京 


数学 一 词 在 西方 源 于 古 希 腊 语 h&gmua， 意 思 是 通过 学 习 获 得 的 知识 
的 意思 ， 因 此 早期 的 数学 涵盖 的 范围 比 我 们 今天 讲 的 数学 要 广 得 多 ， 
和 人 类 的 生活 也 更 接近 些 。 在 古代 最 重要 的 知识 ， 除 了 对 世界 的 认识 
和 了 解 ， 就 是 人 之 间 的 互通 和 交流 了 ， 我 们 把 它 称 为 广义 上 的 通信 。 
本 书 的 内 容 也 将 从 这 里 开始 。 


星期 的 数学 远 不 如 今天 神秘 , 它 是 非常 真实 的 。 但 是 和 任何 事物 一 样 ， 
数学 也 在 不 断 地 演化 ， 而 这 个 发 展 过 程 使 得 数学 变 得 高 深 起 来 。 数 学 
演化 的 过 程 实际 上 是 将 我 们 生活 中 遇 到 的 具体 物质 以 及 他 们 运动 的 规 
律 不 断 抽 象 化 的 过 程 。 经 过 几 千 年 的 抽象 化 ， 大 家 头脑 里 能 想象 的 数 
学 只 剩 下 数字 、 和 符号、 公式 和 定理 了 。 这 些 东 西 和 我 们 的 生活 似乎 渐 
渐 朴 远 了 了， 甚至 在 表面 上 毫 不 相关 了 了。 今天， 除了 初等 数学 ， 大 家 一 
般 对 数学 尤其 是 纯粹 数学 (Pure Mathematics ) 的 用 途 甚 至 产生 了 
怀疑 。 很 多 大 学 生 毕 业 后 ， 在 大 学 所 学 的 数学 可 能 一 蓝 子 都 没有 机 会 
应 用 ， 几 年 后 就 忘 得 差不多 了 。 因 此 ,很 多 人 也 产生 了 为 什么 要 学 习 
数学 的 疑问 。 更 加 不 幸 的 是 , 数学 专业 的 毕业 生 就 连 就业 也 颇 为 困难 ， 
在 中 国 和 美国 都 是 如 此 。 在 很 多 人 眼 里 ， 数 学 家 都 是 陈景润 那样 带 着 
厚 厚 的 眼镜 、 行 为 木讷 的 人 。 因 上 此， 无论 是 这 些 抽 象 的 数字 、 符 号 、 


公式 和 定理 ,还 是 研究 他 们 的 数学 家 和 美 也 似乎 没有 联系 。 


事实 上 数学 的 用 途 远 不 止 人 们 的 想象 ， 甚至 可 以 说 在 我 们 生活 中 是 无 
所 不 在 。 且 不 说 那些 和 我 们 生活 相对 联系 较 少 的 领域 ， 比 如 原子 能 和 
航天 ， 那 里 需要 用 到 大 量 的 数学 知识 。 就 说 我 们 天 天 用 的 产品 和 技 
术 ， 背 后 都 有 文 持 它们 的 数学 基础 。 作 为 一 名 工作 了 20 多 年 的 科学 
工作 者 ， 我 在 工作 中 经 常 惊 叹 于 数学 语言 应 用 于 解决 实际 问题 上 时 的 
魔力 。 我 也 希望 把 这 种 神奇 讲解 给 大 家 听 。 


从 工业 社会 起 ,通信 占据 了 人 们 生活 的 大 量 时 间 。 当 人 类 进入 电 的 时 
代 后 ， 通 信 的 扩展 不 仅 拉 近 了 人 与 人 的 距离 ， 而 且 是 带动 世界 经 济 增 
长 的 火车 头 。 今 天 通信 积 它 相关 的 产业 可 能 占 到 我 们 世界 GDP 很 大 
的 一 部 分 。 今 天 城市 里 的 人 花 时 间 最 多 无 非 是 在 电视 机 前 , 互联 网 上 ， 
电话 上 (不 论 是 固定 电话 还 是 手机 ) , 这些 都 是 这 样 或 者 那样 的 通信 。 
甚至 原本 必须 人 到 现场 的 很 多 活动 比如 购物 ， 也 被 建立 在 现代 通信 基 
础 之 上 的 电子 商务 逐渐 取代 。 而 现代 通信 ， 追 溯 到 100 多 年 前 的 莫 尔 
斯 电报 码 和 贝尔 的 电话 ， 再 回 到 今天 的 电视 ， 手 机 和 互联 网 ， 都 遵循 
信息 论 的 规律 ， 而 整个 信息 论 的 基础 就 是 数学 。 如 果 往 更 远 看 ,我 们 
自然 语言 和 文字 的 起 源 背 后 都 受 着 数学 规律 的 文 配 。 


“ 信 ” 字 作为 “通信 ”一 词 的 50%， 表 明了 信息 处 理 存 储 、 传 输 、 处 理 
和 理解 的 重要 性 。 我 们 今天 每 个 人 都 使 用 的 搜索 ， 以 及 我 们 都 觉得 很 
神奇 的 语音 识别 、 机 器 翻译 和 自然 语言 处 理 也 被 包括 在 其 中 。 也 许 大 
家 不 相信 ， 数 学 是 解决 这 些 问 题 的 最 好 工具 。 它 不 仅 能 够 非常 清晰 地 
用 一 些 通用 的 模型 来 描述 这 些 领 域 的 看 似 不 同 的 实际 问题 ， 而 且 能 给 
出 非常 漂亮 的 解决 办 法 。 每 当 人 们 应 用 数学 工具 解决 一 个 个 和 信息 处 
理 有 关 的 问题 时 , 总 会 感叹 数学 之 美 。 虽然 人 类 的 语言 有 成 百 上 千 种 ， 
但 处 理 它们 的 数学 模型 却 是 相同 的 或 者 相似 的 ， 这 种 一 致 性 也 是 数学 
之 美的 表现 。 在 这 本 书 中 ， 我 们 将 介绍 一 些 数 学 工具 ， 看 看 我 们 是 如 
何 利 用 这 些 工具 来 处 理 信息 ， 开 发 我 们 每 天 生活 中 都 使 用 的 产品 。 


数学 常常 给 人 一 种 深奥 和 复杂 的 感 党 ， 但 是 它 的 本 质 常 稼 是 很 简单 而 
直接 的 。 英 国 哲学 家 弗 痕 西 斯 . 培根 在 论 美德 时 讲 “ 美 德 就 如 同 华贵 
的 宝石 ， 在 朴素 的 衬托 下 最 显 华丽 。” (Virtue is like a rich stone， 
best plain set. ) ， 数 学 的 妙 处 也 恰恰 在 于 一 个 好 的 方法 ， 常 常 是 最 
简单 明了 的 方法 。 因 此 ， 我 会 将 简单 即 是 美的 思想 贯穿 全 书 。 


最 后 ， 要 说 明 一 下 本 书 为 什么 花 了 相当 的 篇 幅 介 绍 很 多 我 所 熟知 的 自 
然 语 言 处 理 和 通信 的 世界 级 专家 。 他 们 来 县 世界 不 同 的 国家 ， 属 于 不 
同 的 民族 ,但 是 他 们 都 有 一 个 共同 的 特点 就 是 数学 非常 好 ， 同 时 解决 
了 很 多 实际 问题 。 通 过 介绍 他 们 日 常 的 工作 和 生活 ,希望 读者 对 真正 
的 世界 级 学 者 有 更 多 的 了 解 。 了 解 他 们 凡人 的 一 面 ， 了 解 他 们 成 功 的 
原因 ， 了 解 真正 懂得 数学 之 美的 人 的 美好 人 生 。 


关 军 


2012 年 4 月 于 深圳 
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第 2 章 自然 语言 处 理 一 从 规则 到 统计 
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同时 , 隐 含 马尔 可 夫 模 型 也 是 机 器 学 习 的 主要 工具 之 一 。 


1 通信 模型 

2 隐 含 马尔 可 夫 模 型 

3 ”延伸 阅读 ， 隐 含 马尔 可 夫 模 型 的 训练 
4 小 结 


39 


71 


81 


目录 省 省 


第 6 章 信息 的 度量 和 作用 
信息 是 可 以 量化 度量 的 。 信 息 米 不 仅 是 对 信息 的 量化 度 
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第 7 章 贾 里 尼克 和 现代 语言 处 理 

作为 现代 自然 语言 处 理 的 奠基 者 ， 贾 里 尼克 教授 成 功 地 
将 数学 原理 应 用 于 自然 语言 处 理 领域 中 ， 他 的 一 生 富 于 
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布尔 代数 虽然 非常 简单 ， 却 是 计算 机 科学 的 基础 ， 它 不 
仅 把 逻辑 和 数学 合 二 为 一 ， 而 且 给 了 我 们 一 个 全 新 的 视 
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第 9 章 图 论 和 网 络 息 贝 

互联 网 搜索 引擎 在 建立 索引 前 需要 用 一 个 程序 自动 地 将 
所 有 的 网 页 下 载 到 服务 器 上 ， 这 个 程序 称 为 网 络 肥 虫 ， 
它 的 编写 是 基于 离散 数学 中 图 论 的 原理 。 
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第 10 意 PageRank 一 一 Google 的 民主 表决 式 网 
页 排名 技术 

网 页 排名 技术 PageRank 是 早期 Google 的 杀手 铜 ， 它 

的 出 现 使 得 网 页 搜索 的 质量 上 了 一 个 大 的 台阶 。 它 背后 
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前 通用 的 关键 词 重要 性 的 度量 ， 其 背后 的 原理 是 信息 论 。 
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状态 机 和 动态 规划 


地 图 和 本 地 服务 中 和 要 用 到 有 限 状态 机 和 动态 规划 技术 。 
这 两 项 技术 是 机 器 智能 和 机 器 学 习 的 工具 ， 它 们 的 应 用 
非常 广泛 ， 还 包括 语音 识别 、 拼 写 和 语法 纠 错 、 拼 音 输 
入 法 、 工 业 控 制 和 生物 的 序列 分 析 等 。 
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1217 第 13 章 ”Google AK-47 的 设计 者 -一 网 米 特 ， 
学 格 博士 
在 所 有 轻武器 中 最 有 名 的 是 AK-47 冲锋 枪 ， 因 为 它 从 不 
卡 过 ， 不 易 损 坏 ， 可 在 任何 环境 下 使 用 ， 可 靠 性 好 ， 杀 
伤 力 大 并 且 操 作 简 单 。Google 的 产品 就 是 按照 上 述 原 
则 设计 的 。 


127 第 14 八 余弦 定理 和 新 闻 的 分 类 
计算 机 虽然 读 不 懂 新 闻 ,， 却 可 以 准确 地 对 新 闻 进 行 分 类 。 
其 数学 工具 是 看 似 室 不 相干 的 余弦 定理 。 
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i137 
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新 闻 的 特征 向 量 
回 量 距 离 的 度量 
延伸 阅读 ， 计算 向 量 余弦 的 技巧 
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第 15 章 ”年 阵 运算 和 文本 处 理 中 的 两 个 分 类 问题 
无 论 是 词汇 的 聚 类 还 是 文本 的 分 类 ， 都 可 以 通过 线性 代 
数 中 矩阵 的 奇异 值 分 解 来 进行 。 这 样 一 来 ， 自 然 语言 处 
理 的 问题 就 变 成 了 一 个 数学 问题 。 


1 文本 和 词汇 的 矩阵 
2 延伸 阅读 : 奇异 值 分 解 的 方法 和 应 用 场景 
3 小 结 


第 16 章 信息 指纹 及 其 应 用 

世间 万 物 都 有 一 个 唯一 标识 的 特征 ， 信 息 也 是 如 此 。 每 
一 条 信息 都 有 它 特定 的 指纹 ， 通 过 这 个 指纹 可 以 区 别 不 
同 的 信息 。 


信息 指纹 
信息 指纹 的 用 途 


延伸 阅读 : 信息 指纹 的 重复 性 和 相似 哈 希 
小 结 
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155 第 17 章 由 电视 剧 《 玉 算 》 所 想到 的 一 谈 谈 
密码 学 的 数学 原理 


密码 学 的 根本 是 信息 论 和 数学 。 没 有 信息 论 指导 的 密码 
是 非常 容易 被 破解 的 。 只 有 在 信息 论 被 广泛 应 用 于 密码 
学 后 ， 密 码 才 真正 变 得 安全 。 


1 密码 学 的 自发 时 代 
2 信息 论 时 代 的 密码 学 
3 小 结 


163 第 18 章 风光 的 不 一 定 是 金子 一 谈 谈 搜索 引 称 
反 作 凋 问题 
闪光 的 不 一 定 是 金子 ， 搜 索引 擎 中 排名 靠 前 的 网 页 也 
未 必 是 有 用 的 网 页 。 消 除 这 些 作 弊 网 页 的 原理 和 通信 
中 过 滤 了 品 章 的 原理 相同 。 这 说 明 信 息 处 理 和 通信 的 很 
多 原理 是 相通 的 。 


169 ”第 19 章 谈 谈 数学 模型 的 重要 性 
正确 的 数学 模型 在 科学 和 工程 中 至 关 重要 ， 而 发 现 正确 
模型 的 途径 常常 是 曲折 的 。 正 确 的 模型 在 形式 上 通常 是 
简单 的 。 


177 第 20 登 不 要 把 鸡 强 放 到 一 个 角子 里 一 - 谈 谈 
最 大 粹 模型 

最 大 箭 模型 是 一 个 完美 的 数学 模型 。 它 可 以 将 各 种 信息 

整合 到 一 个 统一 的 模型 中 ， 在 信息 处 理 和 机 器 学 习 中 有 
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着 广泛 的 应 用 。 它 在 形式 上 非常 简单 、 优 美 ， 而 在 实现 
时 需要 有 精深 的 数学 基础 和 高 超 的 技巧 。 


1 最 大 炉 原 理 和 最 大 焕 模 型 
2 最 大 炉 模 型 的 训练 
3 小 结 


第 21 章 拼音 输入 法 的 数学 原理 

汉字 的 输入 过 程 本 身 就 是 人 和 计算 机 之 间 的 通信 。 好 的 
输入 法 会 自觉 或 不 自觉 地 遵循 通信 的 数学 模型 。 当 然 要 
做 出 最 有 效 的 输入 法 ;应 当 自觉 使 用 信息 论 做 指导 。 


1 输入 法 与 编码 

2 输入 一 个 汉字 需要 敲 多 少 个 键 一 谈 谈 香 
农 第 一 定理 

3 拼音 转 汉 字 的 算法 

4 延伸 阅读 : 个 性 化 的 语言 模型 

5 小 结 


第 22 章 自然 语言 处 理 的 教父 马 库 斯 和 他 的 
优秀 弟子 们 

将 自然 语言 处 理 从 基于 规则 的 研究 方法 转 到 基于 统计 的 

研究 方法 上 ， 宾 夕 法 尼 亚 大 学 的 教授 米奇 . 马 库 斯 功 不 

可 没 。 他 创立 了 今天 在 学 术 界 广泛 使 用 的 LCD 语料库 ， 

同时 培养 了 一 大 批 精英 人 物 。 
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1 教父 马 库 斯 
2 从 宾 乡 法 尼 亚 大 学 走出 的 精英 们 


205 第 23 章 布 隆 过 滤器 

日 常生 活 中 ， 经 常 要 判断 一 个 元 素 是 否 在 一 个 集合 中 。 
布 隆 过 滤器 是 计算 机 工程 中 解决 这 个 问题 最 好 的 数学 工 
具 。 


1 布 隆 过 滤器 的 原理 
2 延伸 阅读 : 布 隆 过 滤器 的 误 识 别 问题 
3 小 结 


211 第 24 意 马尔 可 夫 链 的 扩展 一 贝 叶 斯 网 络 
贝 叶 斯 网 络 是 一 个 加 权 的 有 向 图 , 是 马尔 可 夫 链 的 扩展 。 
而 从 认识 论 的 层面 看 : 贝 叶 斯 网 络 克服 了 马尔 可 夫 链 那 
种 机 械 的 线性 约束 ， 它 可 以 把 任何 有 关联 的 事件 统一 到 
它 的 框架 下 面 。 它 在 生物 统计 、 图 像 处 理 、 决 策 支持 系 
统 和 博 弃 论 中 都 有 广泛 的 使 用 。 


页 叶 斯 网 络 
页 叶 斯 网 络 在 词 分 类 中 的 应 用 
延伸 阅读 : 贝 叶 斯 网 络 的 训练 


小 结 
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第 25 合 ”条件 随 机 场 和 名 法 分 析 

条 件 随机 场 是 计算 联合 概率 分 布 的 有 效 模型 ， 而 句法 
分 析 似乎 是 英文 课 上 英语 老师 教 的 东西 ， 这 两 者 有 什 
么 联系 呢 ? 


1 句法 分 析 计 算 机 算法 的 演变 
2 条 件 随 机 场 
3 小 结 


第 26 音 ”维特 比 和 他 的 维特 比 算 法 

维特 比 算法 是 现代 数字 通信 中 使 用 最 频繁 的 算法 ， 同 时 
也 是 很 多 自然 语言 处 理 的 解码 算法 。 可 以 之 不 夸张 地 讲 ， 
维特 比 是 对 我 们 今天 生活 的 影响 力 最 大 的 科学 家 之 一 ， 
因为 如 今 基于 CDMA 的 3G 移动 通信 标准 主要 就 是 他 创 
办 的 高 通 公司 制定 的 。 


1 维特 比 算法 
2 CDMA 技术 一 一 3G 移动 通信 的 基础 
3 小 结 


第 27 章 ”再 谈 文 本 自动 分 类 问题 一 期 望 最 大 化 
算法 

只 要 有 一 些 训练 数据 ， 再 定义 一 个 最 大 化 函数 ， 采 用 

EM 算法 ， 利 用 计算 机 经 过 若干 次 迭代 ， 就 可 以 得 到 所 

需要 的 模型 。 这 实在 是 太美 妙 了 ， 这 也 许 是 我 们 的 造物 

主 刻 意 安排 的 。 所 以 我 把 它 称 作 上 帝 的 算法 。 
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1 文本 的 上 自 收 敛 分 类 


2 延伸 阅读 ， 期 望 最 大 化 和 收敛 的 必然 性 
3 小 结 


245 “第 28 章 逻辑 回归 和 搜索 广告 
逻辑 回归 模型 是 一 种 将 影响 概率 的 不 同 因 素 结合 在 一 起 
的 指数 模型 ， 它 不 仅 在 搜索 广告 中 起 着 重要 的 作用 ， 而 
且 被 广泛 应 用 于 信息 处 理 和 生物 统计 中 。 


1 搜索 广告 的 发 展 
2 ” 敢 辑 回归 模型 
3 小 结 


251 ”第 29 章 各 个 击破 算法 和 Google 云 计算 的 基础 
Google 颇 为 神秘 的 云 计 算 中 最 重要 的 MapReduce 工具 ， 
其 原理 就 是 计算 机 算法 中 常用 的 “各 个 击破 ”算法 ， 它 
的 原理 原来 这 么 简单 一 将 复杂 的 大 问题 分 解 成 很 多 小 
问题 分 别 求 解 ， 然 后 再 把 小 问题 的 解 合 并 成 原始 问题 的 
解 。 由 此 可 见 ， 在 生活 中 大 便 用 到 的 、 上 真正 有 用 的 方法 
常常 都 是 简单 朴实 的 。 


1 分 治 算法 的 原理 
2 从 分 治 算法 到 MapReduce 
3 小 结 
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第 1 音 文字 和 语言 vs 数字 和 信息 


数字 、 文 字 和 自然 语言 一 样 ， 都 是 信息 的 载体 ， 它 们 之 间 原 本 有 着 天 
然 的 联系 。 语 言 和 数学 的 产生 都 是 为 了 同一 个 目的 一 - 记录 和 传播 信 
息 。 但 是 把 数学 和 信息 系统 目 觉 地 联系 起 来 是 半 个 多 世纪 前 香农 博士 发 
明 信 息 论 以 后 的 事 。 在 此 之 前 ， 数 学 的 发 展 更 多 地 和 人 类 对 上 自然 的 认识 
以 及 生产 活动 联系 在 一 起 ， 包括 天 文学 、 几 何 和 工程 党、 经济 学 、 力 学 、 
物理 学 甚至 生物 学 等 ， 而 数学 和 语言 学 几乎 是 没有 交集 的 。 我 们 见 到 很 
多 数学 家 同时 是 物理 学 家 或 者 天 文学 家 ， 但 是 过 去 很 少 有 数学 家 同时 是 


语言 学 家 。 


本 书 几 乎 全 部 的 章节 讲 的 都 是 近 半 个 多 世纪 的 事情 ,但 是 在 这 一 章 里 ,我 
们 将 先 通 过 时 间 隧 道 回 到 远古 ， 回 到 语言 、 文 字 和 数字 产生 的 年 代 。 


1 信息 


我 们 的 祖先 “现代 人 ”( 人 类 学 上 的 说 法 ) 在 长 成 我 们 今天 的 模样 以 前 ， 
就 开始 使 用 和 传播 信息 了。 正如 动物 园 里 的 动物 们 经 常 发 出 它们 喜欢 的 
怪 叫 一 样 ， 早 期 的 人 类 也 豆 欢 发 出 含糊 的 声音 。 虽 然 最 初 可 能 只 是 喜欢 
这 样 发 声 ， 渐 渐 地 人 类 开始 用 这 种 声音 来 传播 信息 ， 比 如 用 茶 种 特定 的 
声音 表示 “那里 有 只 熊 ”, 提醒 同伴 小 心 。 同 伴 可 能 “ 呀 呀 ”地 回应 两 声 ， 


2 用 数学 之 美 


表示 知道 了 , 或 者 发 出 另 一 串 含 糊 不 清 的 声音 ,表示 “我 们 用 石头 打 它 ”。 





图 1.1 人 类 最 早 利用 声音 的 通信 


这 里 面 信息 的 产生 、 传 播 、 接 收 和 反馈 。 与 今天 最 先进 的 通信 在 原理 上 没 
有 任何 差别 。 关 于 信息 传播 的 模型 ， 在 以 后 的 章节 中 还 会 详细 介绍 。 


怪 叫 声 ”一 听 到 的 声音 一 一 


说 话 人 (信息 源 ) 信道 接收 者 
图 1.2 原始 人 通信 的 方式 和 今天 的 通信 模型 没有 什么 不 同 


早期 人 类 了 解 和 需要 传播 的 信息 是 很 少 的 ， 因 此 他 们 并 不 需要 语言 和 数 
字 。 但 是 随 着 人 类 的 进步 和 文明 化 的 进展 , 需要 表达 的 信息 也 越 来 越 多 ， 
不 再 是 几 种 不 同 的 声音 就 能 完全 和 发 盖 , 语言 就 此 产生 。 人 们 生活 的 经 验 ， 
作为 一 种 特定 的 信息 ， 其 实 是 那个 时 代 最 宝贵 的 财富 ， 通 过 口述 的 语言 
传 给 了 后 代 。 同 时 ， 由 于 人 类 开始 拥有 一 些 食物 和 物件 ， 便 有 了 多 和 和 少 
的 概念 。 很 遗憾 ， 那 时 的 人 类 还 不 会 数 数 ， 因 为 他 们 不 需要 。 


2 文字 和 数字 


我 们 的 祖先 迅速 学 习 新 鲜 事 物 ， 语 言 也 越 来 越 丰富 ， 越 来 越 抽象 。 语 言 
描述 的 共同 因素 ， 比 如 物体 、 数 量 、 动 作 便 抽 象 出 来 , 形成 了 今天 的 词汇 。 
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当 语 言 和 词汇 多 到 一 定 程 度 的 时 候 ， 人 类 仅 靠 大 脑 已 经 记 不 住所 有 词汇 
了 。 这 就 如 同 今天 没有 人 能 够 记 住 人 类 所 有 的 知识 一 样 。 高 效 记 录 信 息 
的 需求 就 产生 了 ， 这 便 是 文字 的 起 源 。 


这 些 文字 ( 包括 数字 ) 出 现 的 年 代 , 今天 是 可 以 考证 的 。 很 多 读者 问 我 为 
什么 在 《浪潮 之 项》 一 书 中 讲 的 公司 大 多 在 美国 ， 因 为 近 百 年 的 技术 革命 
大 多 发 生 在 那里 。 不 过 ， 要 提 到 5 000 甚至 10 000 年 前 的 信息 革命 时 ， 
我 们 必须 回 到 我 们 祖先 走出 的 大 陆 一 非洲 ， 那 里 是 人 类 文明 的 播 篮 。 


在 中 国 〈 迄今 发 现 的 ) 最 早 的 甲骨 文 出 现 前 的 几 千 年 ， 尼罗河 流域 就 
有 了 高 度 的 文明 。 上 古 埃 及 人 不 仅 是 优秀 的 农夫 和 建筑 师 ， 他 们 还 发 明 
了 最 早 的 保存 信息 的 方式 一 用 图 形 表示 事物 ， 这 就 是 最 早 的 象形 文字 
( Hieroglyphic ) 。 图 1.3 是 古 埃 及 的 “ 亚 尼 的 死者 之 书 ”〈 了 Book of The 
Death ) ,收藏 于 大 英 博物 馆 ， 这 是 一 轴 绘 在 纸 莎 草 纸 上 长 达 20 多 米 的 
长 卷 , 有 60 幅 绘 画 故事 和 象形 文字 的 说 明 。 这 件 3 300-3 400 年 前 的 文物 ， 
完整 地 记载 了 当时 的 文明 “。 
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1.3 ” 亚 尼 的 死者 之 书 


1 

即 大 辛 庄 甲 骨 文 。 它 
的 年 代 应 不 晚 于 般 城 
文化 三 期 ， 距 今 约 
3200 年 。 


2 
死者 之 书 是 随 茵 
品 ， 放 在 棺 中 ， 可 
以 看 作 是 古 埃 及 死 
者 带 到 另 一 个 世界 
的 介绍 信和 今后 生 
活 的 描述 。 上 面 有 
大 量 的 象形 文字 ， 
内 容 大 致 是 说 ,， 死 
者 被 带 到 宫 神 面 
前 ， 首 先 ， 他 向 要 
神 讲 述 他 一 更 子 没 
有 做 任何 坏事 ， 然 
后 来 到 诸 神 面 前 被 
裁判 ， 最 后 搭乘 太 
阳 船 开始 新 的 生 
活 。 任 何人 看 到 它 
后 都 会 感到 震撼 。 
它 的 制作 之 精美 ， 
保存 之 完好 完全 超 
出 我 们 的 想象 。 


3 
以 二 级 国标 汉字 库 
为 准 。 


4 ‖ 数学 之 美 


在 早期 ， 象 形 文 字 的 数量 和 记录 一 个 文明 需要 的 信息 量 显然 是 相关 的 。 最 
旱 刻 有 埃及 象形 文字 的 文物 的 年 代 大 约 是 公元 前 32 世纪 ， 那 个 时 期 的 
象形 文字 数量 大 约 只 有 500 个 ， 但 是 到 了 公元 前 5-7 世纪 ( 主要 是 “和 希 
腊 - 罗马 时 代 ”, Greece-Roman Era ) ， 埃 及 象形 文字 的 数量 增加 到 了 
5 000 个 左右 ， 这 个 规模 和 中 国 常用 的 汉字 数量 相当 “。 然 而 随 着 文明 的 
进步 ， 信 息 量 的 增加 ， 埃 及 的 象形 文字 数量 便 不 再 随 着 文明 的 发 展 而 增 
加 了 ， 因 为 没有 人 能 够 学 会 和 记 住 这 么 多 的 文字 。 于 是 ， 概 念 的 第 一 次 
概括 和 归 类 就 开始 了 了。 在 中 国 的 象形 文字 中 ，“ 日 ”本 意 是 太阳 ， 但 是 
它 同 时 又 是 太阳 从 升 起 到 落 山 再 到 升 起 的 时 间 周 期 ， 也 就 是 我 们 讲 的 一 
天 。 在 古 埃 及 的 象形 文字 中 ， 读音 相 辣 的 词 可 能 用 同一 个 符号 记录 。 这 
种 概念 的 聚 类 ， 在 原理 上 与 今天 是 然 语 言 处 理 或 者 机 器 学 习 的 聚 类 有 很 
大 的 相似 性 ， 只 是 在 远古 ， 完 成 这 个 过 程 的 时 间 可 能 需要 上 于 年 ; 而 今 
天 ， 可 能 只 需 几 天 甚至 几 小 时 ， 视 计算 机 的 速度 和 数量 而 定 。 


文字 按照 意思 来 聚 类 ， 最 终 会 带 来 一 些 歧 义 性 ， 也 就 是 说 有 时 弄 不 清 一 
个 多 义 字 在 特定 环境 下 它 到 底 表示 其 中 的 哪个 售 义 。 而 解决 这 个 问题 的 
方法 ， 过 去 的 先生 和 今天 的 学 者 没有 什么 人 不同， 都 是 依靠 上 下 文 。 有 了 
上 下 文 , 大 多 数 情况 下 多 义 字 的 去 除 岐 义 ( Disambiguation ) 可 以 做 到 。 
当然 , 总 有 个 别 做 不 到 的 时 候 , 这 就 导致 了 学 者 们 对 茶 段 话 理 解 上 的 不 同 。 
中 国 古 代 学 者 对 儒家 经 典 的 注释 和 正义 ， 其 实 都 是 在 按照 自己 的 理解 做 
消除 歧义 性 的 工作 。 今天 的 情况 也 类 似 , 对 上 下 文 建立 的 概率 模型 再 好 ， 
也 有 失灵 的 时 候 。 这 些 是 语言 从 产生 伊始 就 国有 的 特点 。 


有 了 文字 , 前 人 的 生活 经 验 和 发 生 的 事件 便 一 代 代 传 了 下 来 。 只 要 一 个 文 
明 不 中 断 , 或 者 这 种 文字 还 有 人 认识 , 这 些 信息 就 会 永远 地 传 下 去 ， 比 如 
中 国 的 文明 便 是 如 此 。 当 然 ， 当 一 种 文字 不 再 有 人 认识 时 ， 破 解 相 应 的 
信息 就 有 点 困难 了 ， 虽 然 办 法 还 是 有 的 。 


不 同 的 文明 , 因为 地 域 的 原因 , 历史 上 相互 隔绝 , 便 会 有 不 同 的 文字 。 随 着 
文明 的 融合 与 冲突 ， 不 同文 明 下 的 人 们 需要 进行 交流 ， 或 者 说 通信 ， 那 
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么 翻译 的 需求 便 产 生 了 。 翻 译 这 件 事 之 所 以 能 达成 ,仅仅 是 因为 不 同 的 
文字 系统 在 记录 信息 上 的 能 力 是 等 价 的 。' 这 个 结论 很 重要 。) 进 一 步 讲 ， 
文字 只 是 信息 的 载体 ， 而 非 信息 本 身 。 那 么 不 用 文字 ， 而 用 其 他 的 载体 
( 比如 数字 ) 是 否 可 以 存储 同样 意义 的 信息 呢 ? 这 个 答案 是 肯定 的 ， 这 
也 是 我 们 今天 现代 通信 的 基础 。 当 然 ， 不 同 的 文明 进行 交流 时 ， 或 许 会 
用 不 同 的 文字 记载 同一 件 事 情 。 这 就 有 可 能 为 我 们 破解 无 人 能 懂 的 语言 
提供 一 把 钥匙 。 


从 公元 前 7 世纪 起 ， 随 着 希腊 人 开始 卷 入 埃及 的 政权 之 争 “， 希腊 文化 开 
始 对 埃及 产生 了 影响 。 尤 其 是 后 来 希腊 人 (包括 马其顿 人 ) 和 罗马 人 先 
后 成 了 埃及 的 主人 ,埃及 的 语言 也 逐渐 拉丁 化 。 和 象形 文字 退出 了 历史 的 
舞台 ， 不 再 是 人 们 通信 的 工具 ， 而 只 是 一 种 信息 的 记载 ， 只 有 庙 里 的 各 
司 们 能 认得 了 。 到 了 公元 4 世纪 左右 ， 罗 马 皇 帝 迪 奥 多 西 一 世 下 令 在 埃 
及 清除 非 基 督 教 的 宗教 ， 埃 及 的 象形 文字 从 此 失传 。1 400 多 年 后 ，1798 
年 ， 拿 破 仑 的 远征 军 来 到 埃及 ， 随 军 有 上 百名 学 者 。 一 天 ， 一 个 叫 皮 埃 
尔 ， 弗 朗 索 巨 : 布 沙 尔 (Pierre-Francois Bouchard ) 的 中 尉 在 一 个 叫 罗 
塞 塔 人 Rosetta ) 的 地 方 发 现 了 一 块 破碎 的 古 埃 及 石碑 【图 1.4) ， 上 面 有 
三 种 语言 : 埃及 象形 文字 、 埃 及 的 拼音 文字 和 十 希腊 文 。 他 意识 到 这 块 
石和 外 对 破解 古 埃及 秘密 的 重要 性 ， 便 交 给 了 随行 的 科学 家 让 约瑟夫， 
马 塞 尔 ( Jean-Joseph Marcel ) ， 后 者 拓 下 了 石碑 上 的 文字 带 回 法 国 。 虽 
然 1801 年 随 着 法 国 在 埃及 战败 ， 罗 赛 塔 石碑 从 法 国人 手 里 转 到 了 英国 人 
手 里 “， 但 是 马赛 尔 带 回 的 拓片 却 在 法 国 和 欧洲 的 学 者 中 传阅 ， 直 到 21 
年 后 的 1822 年 ， 法 国语 言 学 家 商 博 良 (Jean-Fran¢ois Champollion ) 秦 
解 了 罗 塞 塔 石 碑 上 的 古 埃及 象形 文字 。 可 见 文字 本 身 的 载体 是 石头 还 是 
纸张 并 不 重要 ， 它 所 承载 的 信息 才 是 最 重要 的 。 
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公元 前 653 年 ， 产 
腊 商 人 帮助 埃及 人 
抵抗 外 族 入 侵 。 


号 
这 是 今天 大 英 博物 
馆 镇 馆 之 宝 之 一 。 
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1.4 罗 塞 塔 石碑 


罗 塞 塔 石碑 的 破译 ， 让 我 们 了 解 了 整个 埃及 从 公元 前 32 世纪 (早期 王朝 
时 代 ) 至 今 的 历史 ,这 是 让 历史 学 界 和 语言 学 界 最 振奋 的 事情 。 今天 ， 
我 们 对 5 000 年 前 埃及 的 了 解 远 比 1 000 年 前 的 玛雅 文明 要 多 得 多 ， 这 要 
归功 于 埃及 人 通过 文字 记录 了 他 们 生活 中 最 重要 的 信息 。 而 对 于 我 这 个 
长 期 从 事 自然 语言 处 理 的 学 者 来 讲 ， 这 件 事 有 两 点 指导 意义 。 


信息 的 元 余 是 信息 安全 的 保障 。 罗 塞 塔 石碑 上 的 内 容 是 同一 信 
息 重 复 三 次 ， 因 此 只 要 有 一 份 内 容 完好 保留 下 来 ， 原 有 的 信息 就 不 
会 丢失 ， 这 对 信道 编码 有 指导 意义 。 ( 感谢 2 000 多 年 前 古 埃 及 人 在 
罗 塞 塔 石碑 上 用 三 种 文字 记录 了 托 勒 密 五 世 登 基 的 诏书 。 
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2.， 语言 的 数据 我们 称 之 为 语 料 ， 尤 其 是 双语 或 者 多 语 的 对 照 语 
料 对 翻译 至 关 重 要 ， 它 是 我 们 从 事 机 器 翻译 研究 的 基础 。 在 这 个 方 
法 上 ， 我 们 并 没有 比 商 博 良 走 得 更 远 。 唯 一 不 同 的 是 ， 我 们 有 了 更 
强大 的 数学 工具 和 计算 机 ， 不 需要 花费 他 那么 长 的 时 间 。 


了 解 了 罗 塞 塔 石碑 的 历史 , 对 于 今天 很 多 翻译 软件 和 上 服务 都 叫做 “网 塞 塔 ? 
就 不 奇怪 了 , 这 其 中 包括 Google 的 机 器 翻译 和 世界 上 销量 最 大 的 PC 机 上 
的 翻译 软件 。 


既然 文字 是 出 现在 远古 “信息 爆炸 ”导致 入 们 的 头脑 装 不 下 这 些 信息 的 
时 候 ， 那 么 数字 的 出 现 则 是 在 人 们 的 财产 多 到 需要 数 一 数 才 搞 清楚 有 多 
少 的 时 候 。 著 名 的 美 籍 俄 毅 物 理学 家 乔治 . 伽 莫 夫 (George Gamow， 
1904-1968 ) 在 他 的 科普 读物 《从 一 到 无 穷 大 》 一 书 中 讲 了 这 样 一 个 原始 
部 落 中 的 故事 。 两 个 疯长 要 比 一 比 谁 说 的 数字 大 ， 一 个 首长 想 了 想 ， 先 
说 了 “三 ”,， 第 二 个 首长 想 了 半天 ,说 你 说 了 。 因 为 在 原始 部 落 ， 物 质 
极其 人 缺乏， 超过 三 的 时 候 很 少 ， 他 们 就 称 之 为 “许多 ”或 者 叫 数 不 清 。 
因此 ， 在 那个 时 代 ， 不 可 能 有 完整 的 计数 系统 。 


当 我 们 的 祖先 需要 记录 的 物件 超过 三 时 ， 当 他 们 觉得 五 和 八 还 是 有 区 别 
的 时 候 ， 计 数 系统 就 产生 了 。 而 数字 是 计数 系统 的 基础 。 当 然 ， 早 期 数 
字 并 没有 书写 的 形式 ， 而 是 禾 指 尖 ， 这 就 是 为 什么 我 们 今天 使 用 十 进 制 
的 原因 。 训 无 疑问 ， 如 果 我 们 有 十 二 个 指头 ， 今 天 我 们 用 的 一 定 是 十 二 
进 制 。 而 具有 书写 形式 的 数字 和 象形 文字 应 该 逛 生 于 同一 时 期 -一 几乎 
所 有 早期 的 文明 对 于 数字 1、2、3 的 记录 方式 都 是 几 横 《中国 )、 几 竖 ( 罗 
马 ) 或 者 几 个 牧 子 点 (巴比伦, 图 1.5 ) , 这 是 典型 的 象形 文字 的 特征 。 
因此 ， 数 字 和 其 他 文字 一 样 ， 在 早期 只 是 承载 信息 的 工具 ， 并 不 具有 任 
何 抽象 的 含义 。 


6 

十 进 制 、 十 二 进 制 
和 十 六 进 制 混杂 在 
一 起 的 复杂 单位 制 ， 
除了 美国 , 今天 已 
经 没有 主要 国家 使 
用 了 。 
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7 了 1 <7 11 《7a21 ?7 31 7 41 {7 51 
好 2 < 他 12 AF 22 32 发 77 42 《7 5: 
YY 3 A477 13 7 23 PR 33 {YT 43 {TT 53 
多 4 人 信 14 《 2 人 34 4 { 留 54 
算 5 人 罩 15 《多 2 5 权 多 45 退色 55 
铬 5 如 16 《性 26 《3 代办 4 娘 跟 56 
这 7 17 名 27 如 37 说 屠 147 {要 改 57 
深 8 。 《了 池 18 好 28 好 38 相当 光源 58 
济 9 坪 1 《人 全 撤 3 汝 40 过半 ss 
4 10 民 20 要 30 < 40 Kk 50 
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渐渐 地 ， 我 们 的 宜 先 发 现 十 个 指头 不 够 用 了 。 虽 然 最 简单 的 办 法 就 是 把 
十 个 脚趾 头 也 算 上 ,但 是 这 不 能 解决 根本 问题 。 事 实 上 ， 我 们 的 祖先 没 
有 这 样 做 ， 当 然 也 许 在 欧 亚 非 大 陆 上 出 现 过 这 人 么 做 的 部 落 ， 但 早 就 被 灭 
绝 了 。 我 们 的 祖先 很 聪明 ， 他 们 发 明了 进位 制 ， 也 就 是 我 们 今天 说 的 着 
十 进 一 。 这 是 人 类 在 科学 上 的 一 大 飞 赋 ,因为 我 们 的 祖先 懂得 对 数量 开 
始 编 码 了 , 不 同 的 数字 代表 不 同 的 量 。 几 乎 所 有 的 文明 都 采用 了 十 进 制 ， 
那么 是 否 有 文明 采用 二 十 进 制 呢 ， 也 就 是 说 他 们 数 完全 部 的 手指 和 脚趾 
才 开 始 进 位 呢 ? 答案 是 肯定 的 ， 这 就 是 玛雅 文明 。 因 此 ， 玛 雅 人 的 一 个 
世纪 ， 他 们 称 为 太阳 纪 ， 是 四 百年 。2012 年 正好 是 目前 这 个 太阳 纪 的 最 
后 一 年 ，2013 年 将 是 新 的 太阳 纪 的 开始 。 这 是 我 在 墨西哥 从 研究 玛雅 文 
化 的 教授 那里 得 知 的 。 不 知道 从 何 时 起 ，2012 年 这 个 太阳 纪 的 最 后 一 年 
被 率 传 为 世界 的 最 后 一 年 。 当 然 ， 这 是 题 外 话 了 。 


相 比 十 进 制 ， 二 十 进 制 有 很 多 不 便 之 处 。 我 们 中 国人 过 去 即使 是 不 识 
几 个 字 的 人 ， 也 能 背诵 九 九 表 。 但 是 ， 换 成 二 十 进 制 ， 要 背 的 可 就 是 
19 x 19 的 围棋 盘 了 。 事 实 上 ， 很 多 过 去 使 用 英制 “的 英 联 邦 国 家 ， 比 如 
印度 、 斯 里 兰 卡 ， 宋 法 表 是 12 x 12 的 。 即 使 到 了 人 类 文明 的 中 期 ， 即 公 
元 前 后 ， 除 非 是 学 者 ， 几 乎 没有 人 人 能够 做 到 这 一 点 。 我 想 这 可 能 是 玛雅 
文明 发 展 非常 缓慢 的 原因 之 一 , 当然 更 重要 的 原因 是 它 的 文字 极为 复 琳 ， 
以 至 于 每 个 部 落 没 有 几 个 人 能 认识 。 
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对 于 不 同位 数 数字 的 表示 ， 中 国人 和 罗马 人 都 用 明确 的 单位 来 表示 数字 

的 不 同 量 级 ， 中 国人 是 用 个 十 百 千 万 亿 焰 “。 罗 马 人 用 I 代表 个 , VY 代 7 
天 5,，X 代 表 10, 工 代表 50, C 代表 100, D 代表 500，M 代表 1000， yy 
再 往 上 就 没有 了 。 这 两 种 表示 法 都 不 自觉 地 引入 了 朴素 的 编码 的 概念 。 
首先 ， 它 们 都 是 用 不 同 的 符号 代表 不 同 的 数字 概念 ; 第 二 ， 它 们 分 别 
制定 了 解码 的 规则 。 在 中 国 ， 解 码 的 规则 是 匀 法 。200 万 的 写法 含义 是 
2x 100x10000; 而 在 罗马 , 解码 的 规则 是 加 减法 -一 小 数字 出 现在 大 数 

字 左 边 为 减 ,右边 为 加 。 比 如 IV 表示 5-1=4, Vl 表示 5+2=7, lIXX 
表示 20 -2 = 18。 这 个 规则 不 仪 复 杂 ， 而 且 对 于 大 的 数字 很 难 描 述 。 罗 马 

人 要 写 100 万 的 话 , 灵 怕 要 MMMM… 地 不 断 写 下 去 , 写 满 一 整 块 黑板 ， 
直到 近代 他 们 才 在 M 上 用 上 划 线 表示 几 万 和 几 十 万 。 因 此 ， 从 编码 的 有 


训 i 明 “ 
效 性 来 讲 ， 中 国人 的 做 法 比 罗马 入 高明 。 实际 上 ， 罗 马 人 的 
老师 希腊 人 的 计数 
方式 和 中 国 古 代 师 
AAANMMSMMAMMMAR 为 相似 ， 不 知 为 什 
MAMMAMRRAIRMIAAY SA ANNN 
AAAAMAAAMMAN 么 ,罗马 人 没 学 会 。 


J 


NS 


er 


1.6 一 位 罗马 学 者 试图 在 黑板 上 写 出 100 万 


描述 数字 最 有 效 的 是 古 印度 人 ， 他 们 发 明了 包括 0 在 内 的 10 个 阿拉 但 数 
字 ”, 就 是 今天 全 世界 通用 的 数字 。 这 种 表示 方法 比 中 国 和 罗马 的 都 抽象 ， 3 


这 个 0 很 重要 ， 否 
但 是 使 用 方便 。 因 此 ， 它 们 由 阿拉 伯 人 传人 欧洲 后 ， 马 上 得 到 普及 。 只 。 则 就 需要 许多 所 
是 欧洲 人 并 不 知道 这 些 数字 的 真正 发 明 者 是 印度 人 ， 而 把 功劳 给 了 “二 交加 个 


道 贩子 ”阿拉 伯 人 。 阿 拉 伯 数字 或 者 说 印度 数字 的 章 命 性 不 仅 在 于 它 的 


10 川 数学 之 美 


10 

有 最早 的 泥 板 年 代 在 
公元 前 26 世纪 或 者 
更 远 ， 迄 今 有 4700 
年 左右 的 历史 。 


简洁 有 效 ， 而 且 标 志 着 数字 和 文字 的 分 离 。 这 在 客观 上 让 自然 语言 的 研 
究 和 数学 在 几 千 年 里 没有 重复 的 轨迹 。 而 且 越 走 越 远 。 


3 ”文字 和 语言 背后 的 数学 


但 是 ， 任 何事 物 的 规律 性 是 内 在 的 ， 并 不 随 它 的 载体 而 改变 。 自 然 语言 
的 发 展 在 冥 竖 之 中 ， 痢 受 着 信息 科学 规律 的 引导 。 


当 人 类 第 二 个 文明 的 中 心 古巴 比 伦 在 两 河流 域 的 美 索 不 达 米 亚 建立 的 时 
候 ， 一 种 新 的 文字 -一 槐 形 文字 诞生 了 。 考 古 学 家 和 语言 学 家 最 初 看 到 
这 些 刻 在 泥 板 和 石板 ”上 上， 与 埃及 象形 文字 多 少 有 点 相像 的 符号 时 ， 以 
为 它们 是 另 一 种 象形 文字 。 但 是 很 快 他 们 就 发 现 这 些 文字 其 实 是 拼音 文 
字 ， 是 我 们 这 个 星球 上 最 古老 的 拼音 文字 ， 每 个 形状 不 同 的 模子 实际 上 
是 一 个 不 同 的 字母 。 如 果 把 中 文 的 笔画 作为 字母 ， 它 其 实 也 是 一 种 拼音 
文字 , 不 过 它 是 二 维 的 而 已 。( 不 过 , 为 了 和 罗马 体系 的 拼音 文字 相 区 别 ， 
在 这 本 书 中 我 们 会 把 汉字 称 为 意 型 文字 。 ) 大 英 博物 馆 保存 了 上 万 块 这 
种 泥 板 和 石板 ， 上 面 都 是 棉 形 文字 。 这 些 刻 满 了 文字 的 石板 和 泥 板 与 亚 
述 浮 雕 一 起 ， 被 认为 是 最 有 价值 的 古巴 比 伦 文物 。 


拼音 文字 由 上 腓 尼 基 人 从 以 古巴 比 伦 为 中 心 的 美 索 不 达 米 亚 带 到 地 中 海 东 
岸 的 叙利亚 。 腓 尼 基 人 是 天 生 的 商人 ,不 愿意 把 大 量 的 时 间 花 在 雕刻 这 
些 漂 亮 的 模 形 字母 上 ， 而 将 它们 简化 成 22 个 字母 。 这 些 字 母 随 着 腓 尼 基 
人 的 商 团 经 爱 琴 海 诸 岛 (如 克 里 特 岛 ) , 然后 传 给 了 希 髓 人 的 祖先 。 但 是 ， 
拼音 文字 在 十 希腊 得 到 了 充分 的 发 展 , 和 证 巴比伦 的 模 形 字母 已 经 不 同 ， 
古 希 腊 文 字母 的 拼写 和 读音 已 经 紧密 地 结合 起 来 了 ,这 种 语言 相对 容易 
学 习 。 在 今后 的 几 个 世纪 里 ,伴随 着 马其顿 人 以 及 几 个 世纪 后 的 罗马 人 
的 扩张 ,这些 只 需要 几 十 个 字母 的 语言 成 为 了 欧 亚 非 大 陆 语言 体系 的 主 
体 ， 因 此 , 今天 我 们 把 所 有 西方 的 拼音 文字 称 为 罗马 式 的 语言 ( Roman 


Languages ) 。 


从 象形 文字 到 拼音 文字 是 一 个 飞 获 ， 因 为 人 类 在 描述 物体 的 方式 上 ， 从 


第 1 章 文字 和 语言 vs 数字 和 信息 | 川 1 


物体 的 外 表 到 抽象 的 概念 ， 同 时 不 自觉 地 采用 了 对 信息 的 编码 。 不 仅 如 
此 ， 我 们 的 祖先 对 文字 的 编码 还 非常 合理 。 在 罗马 体系 的 文字 中 ， 总 体 
来 讲 ， 常 用 字 短 ， 生 个 字 长 。 而 在 意 型 文字 中 ， 也 是 类 似 ， 大 多 常用 字 
笔画 少 ， 而 生僻 字 笔 画 多 。 这 完全 符合 信息 论 中 的 最 短 编 码 原 理 ， 虽 然 
我 们 的 祖先 并 不 懂 人 信息论。 这 种 文字 设计 ( 其 实 是 一 种 编码 方法 ) 带 来 
的 好 处 是 书写 起 来 省 时 间 、 省 材料 。 


在 蔡伦 发 明 纸 张 以 前 , 书写 文字 不 是 一 件 容易 的 事情 。 就 以 中 文 为 例 ， 
在 东汉 以 前 要 将 文字 刻 在 其 他 物件 比如 龟 完 、 石 碑 和 竹简 上 。 由 于 刻 一 
个 字 的 时 间 相 当 长 ， 因 此 要 惜 墨 如 金 。 这 就 使 得 我 们 的 古文 《〈 书面 文字 ) 
非常 简洁 , 但 是 非常 难 慌 , 而 同时 期 的 口语 却 和 今天 的 白话 差别 不 大 ， 
语句 较 长 但 是 易 履 。( 岭南 客家 话 基 本 上 保留 了 古代 口语 的 原貌 ， 写 出 
来 和 我 们 清末 民 初 的 白话 申 为 相似 。 ) 这 种 现象 非常 符合 今天 信息 科学 
( 和 工程 ) 的 一 些 基本 原理 ， 就 是 在 通信 时 ， 如 果 信道 较 宽 ,信息 不 必 
压缩 就 可 以 直接 传递 ， 而 如 果 人 和 信道 很 罕 ， 信 息 在 传递 前 需要 尽 可 能 地 压 
缩 ， 然 后 在 接收 端 进行 解压 缩 。 在 古代 ， 两 个 人 讲话 说 得 快 是 一 个 宽 信 
道 ， 无 需 压缩 ; 书写 来 得 慢 是 一 个 窜 信 道 ， 需 要 压缩 。 将 日 常 的 白话 口 
语 写成 精简 的 文言 文本 映 是 信道 压缩 的 过 程 ， 而 将 文言 文 解释 清楚 是 解 
压缩 的 过 程 。 这 个 现象 与 我 们 今天 宽带 互联 网 和 无 线 WAP 互联 网 网 页 
的 设计 完全 一 致 ， 前 者 是 经 过 一 个 宽带 传输 ， 因 此 页 面 设 计 得 较 大 ; 而 
后 者 由 于 空中 频道 带宽 的 限制 ， 传 输 速度 要 慢 一 到 两 个 数量 级 ， 因 此 
WAP 页 面 都 非常 小 。 由 些 可见， 在 信息 论 尚未 被 发 明 的 几 于 年 前 ， 中 国 
人 已 经 无 意识 地 遵照 它 的 规律 行事 了 。 


当 司 马 迁 用 近 53 万 字 记 载 了 中 国 上 千年 历史 的 同时 ， 远 在 中 东 的 犹太 人 
也 用 类 似 的 篇 辐 记 载 了 自 创 世纪 以 来 , 主要 是 摩西 以 来 他 们 祖先 的 历史 ， 《sy sis 
这 就 是 《圣经 》 中 的 《 旧 约 》 部 分 "。《 圣 经 》 简 洁 的 文风 和 中 国 的 《史记 》 不同 各 本 字数 合同 ， 


大 约 在 90-100 万 字 


颇 有 相似 之 处 。 但 是 和 《史记 了》 这 本 由 唯一 作者 写成 的 史书 不 同 ,，《 圣 经 》 ”之 间 。 其 中 (IB 约 》 


的 写作 持续 了 很 多 世纪 ， 后 世 的 人 在 做 补充 时 ， 看 到 的 是 几 百 年 前 甚至 ww 中 


上 千年 前 原作 的 抄本 。 抄 写 的 错误 便 在 所 难免 。 据 说 今天 也 只 有 牛津 大 505 字 ， 
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学 保留 了 一 本 没有 任何 错误 的 古本 。 虽 然 做 事 认真 的 犹太 人 要 求 在 抄写 
《圣经 》 时 ， 要 虔诚 并 且 打 起 十 二 分 精神 ， 尤 其 是 每 写 到 “上 帝 ” ( God 
和 Lord ) 这 个 词 时 要 去 洗手 祈祷 ,但 是 抄写 错误 还 是 难以 避免 。 于 是 狼 
太 人 发 明了 一 种 类 似 于 我 们 今天 计算 机 和 通信 中 校 验 码 的 方法 。 他 们 把 
每 一 个 希 伯 来 字母 对 应 于 一 个 数字 ， 这 样 每 行文 字 加 起 来 便 得 到 一 个 特 
殊 的 数字 ， 这 个 数字 便 成 为 了 这 一 行 的 校 验 码 。 同 样 ， 对 于 每 一 列 也 是 
这 样 处 理 。 当 犹太 学 者 抄 完 一 页 《圣经 》 时 ， 他 们 需要 把 每 一 行 的 文字 
加 起 来 ,看 看 新 的 校 验 码 是 否 和 原文 的 相同 ， 然 后 对 每 -一 页 进行 同样 的 
处 理 “。 如 果 这 一 页 每 一 行 和 每 一 列 的 校 验 码 和 原文 完全 相同 ,说 明 这 
一 页 的 抄写 无 误 。 如 果 某 行 的 校 验 码 和 原文 中 的 对 应 不 则 说 明 这 一 
行 至 少 有 一 个 抄写 错误 。 当然 , 错误 对 应 列 的 校 验 码 也 一 定 和 原文 对 不 上 ， 

这 样 可 以 很 快 找到 出 错 的 地 方 。 这 背后 的 原理 和 我 们 今天 的 各 种 校 验 是 
相同 的 。 
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图 17 古 犹 太 人 抄写 圣经 ， 要 检查 每 一 行 、 每 一 列 的 校 验 是 否 正确 
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语言 从 古语 发 展 到 现代 语言 ， 在 表达 含义 上 比 以 前 更 准确 、 更 丰 当 ,这 
里 面 语 法 起 到 了 很 大 的 作用 。 我 不 是 语言 史学 家 ， 没 有 去 考证 最 早 语法 
出 现 的 年 代 , 但 是 大 抵 可 以 肯定 在 古 希腊 时 期 就 开始 成 型 了 “。 如 果 说 从 
字母 到 词 的 构词法 ( Morphology ) 是 词 的 编码 规则 ， 那 么 语法 则 是 语言 
的 编码 和 解码 规则 。 不 过 ， 相 比较 而 育 , 词 可 以 被 认为 是 有 限 而 且 封 闭 的 
集 谷 ， 而 语言 则 是 无 限 和 开放 的 集合 。 从 数学 上 讲 ,， 对 于 前 者 可 以 有 完 
备 的 编 解码 规则 ， 而 后 者 则 不 具备 这 个 特性 。 因 此 ， 任 何 语言 都 有 语法 
规则 绪 盖 不 到 的 地 方 ， 这 些 例外 或 者 说 不 精确 性 ， 让 我 们 的 语言 丰富 多 
彩 。 虽 然 正统 而 教条 的 语言 学 家 倾向 于 把 这 些 例外 作为 “病句 ”， 并 且 
有 的 人 毕 其 一 生 的 精力 来 消灭 病句， 纯化 语言 ， 但 是 事实 证 明 这 种 工作 
是 徒劳 的 。 莎 士 比 亚 的 作品 在 他 的 时 代 完 全 是 通俗 而 大 众 化 的 ， 其 中 包 
括 大 量 和 古语 法 相 违 背 的 名 句 ， 那 个 时 代 就 开始 有 人 试图 完善 ( 其 实 是 
自 改 ) 莎士比亚 剧 。 可 今天 这 些 语言 不 但 没有 消失 反而 成 了 经 典 ， 而 试 
图 完善 他 的 著作 的 人 却 早已 为 大 众 遗 起 。 


这 就 涉及 到 一 个 语言 学 研究 方法 的 问题 : 到 底 是 语言 对 , 还 是 语法 对 。 
前 者 坚持 从 真实 的 语句 文本 称 为 语 料 ) 出 发 ， 而 后 者 坚持 从 规则 出 
发 。 经 过 三 四 十 年 的 争论 ,最 后 实践 是 检验 真理 的 唯一 标准 ， 目 然 语 
言 处 理 的 成 就 最 终 宣布 了 前 者 的 获胜 。 这 段 经 过 , 我 们 会 在 第 2 章 “ 目 
然 语言 处 理 ~ 一 从 规则 到 统计 ”中 介绍 。 


4 小 结 


我 们 在 这 一 章 中 讲述 了 文字 、 数 字 和 语言 的 历史 ， 目 的 是 帮助 读者 感受 
语言 和 数学 天 然 、 内 在 的 联系 。 这 里 提 到 了 一 些 概念 和 主题 ， 它 们 是 我 
们 在 后 面 的 章节 中 讨论 的 重点 ， 包 括 : 

。 通信 的 原理 和 信息 传播 的 模型 

。 【《 信 源 ) 编码 和 最 短 编码 

。 解码 的 规则 ， 语 法 
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也 有 人 认为 在 更 早 
的 古巴 比 伦 语 中 就 
形成 了 。 
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。 聚 类 

。 校 验 位 

。 双语 对 照 文 本 ,语料库 和 机 器 翻译 

。 多 义 性 和 利用 上 下 文 消除 歧义 性 
这 些 今天 自然 语言 处 理学 者 们 研究 的 问题 ， 我 们 的 祖先 在 设计 语言 的 时 
候 其 实 已 经 遇 到 了 ， 并 且 用 类 似 今天 的 方法 解决 了 ， 虽然 他 们 的 认识 大 


多 是 自发 的 ， 而 不 是 自觉 的 。 他 们 过 去 遵循 的 法 则 和 我 们 今天 探求 的 研 
究 方 法 背后 有 着 共同 的 东西 ， 这 就 是 数学 规律 。 


第 2 章 自然 语言 处 理 一 从 规则 到 
统计 


在 上 一 章 讲 到 ,语言 出 现 的 目的 是 为 了 人 类 之 间 的 通信 。 字 和 母 (或 者 中 
文 的 笔画 ) 、 文 字 和 数字 实际 上 是 信息 编码 的 不 同 单位 。 任 何 一 种 语言 
都 是 一 种 编码 的 方式 ， 而 语言 的 语法 规则 是 编 解码 的 算法 。 我 们 把 一 个 
要 表达 的 意思 ， 通 过 某 种 语言 的 一 句 话 表达 出 来 ， 就 是 用 这 种 语言 的 编 
码 方 式 对 头脑 中 的 信息 做 了 一 次 编码 ， 编 码 的 结果 就 是 一 串 文字 。 而 如 
果 对 方 懂得 这 门 语言 ， 他 或 者 她 就 可 以 用 这 门 语 言 的 解码 方法 获得 说 话 
人 要 表达 的 信息 。 这 就 是 语言 的 数学 本 质 。 虽 然 传 递 信息 是 动物 也 能 做 
到 的 ， 但 是 利用 语言 来 传递 信息 是 人 类 的 特质 。 


1946 年 ', 现代 电子 计算 机 出 现 以 后 , 计算 机 在 很 多 事情 上 做 得 比 人 还 好 。 
既然 如 此 ， 机 器 是 否 能 够 懂得 自然 语言 呢 ? 事实 上 当 计 算 机 一 出 现 ， 人 
类 就 开始 琢磨 这 件 事 。 这 里 面 涉 及 到 两 个 认 知 方面 的 问题 ， 第 一 ， 计 算 
机 是 否 能 处 理 自然 语言 ; 第 二 ， 如 果 能 ， 那 么 它 处 理 自然 语言 的 方法 是 
否 和 人 类 一 样 。 这 本 书 将 回答 这 两 个 问题 。 为 了 不 吊 读者 的 胃口 ， 我 在 
这 里 先 给 出 简洁 版 的 答案 : 对 这 两 个 问题 的 回答 都 是 肯定 的 ，Yes ! 


1 
Lb 马 ， 诺 依 界 体系 的 
ENIAC 为 准 。 
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1 机 器 管 能 


最 时 提出 机 器 智能 设想 的 是 计算 机 科学 之 父 阿 兰 . 图 灵 (Alan 
Turing ) ，1950 年 他 在 《思想 》( Mind ) 杂志 上 发 表 了 一 篇 题 为 “ 计 
算 的 机 器 和 智能 ”的 论文 。 在 论文 中 , 图 灵 并 没有 提出 什么 研究 的 方法 ， 
而 是 提出 了 一 种 来 验证 机 器 是 否 有 智能 的 方法 : 让 人 和 机 器 进行 交流 ( 图 
2.1 ) ， 如 果 人 无 法 判断 自己 交流 的 对 象 是 人 还 是 机 器 时 ， 就 说 明 这 个 
机 器 有 和 党 能 了 。 这 种 方法 逢 后 人 称 为 图 灵 测 试 (Turing Test ) 。 图 灵 
其 实 是 留 下 了 一 个 问题 ， 而 非 答案 ， 但 是 一 般 认为 自然 语言 的 机 器 处 理 
( 现在 称 作 目 然 语言 处 理 ) 的 历史 可 以 追 湖 到 那个 时 候 ， 至 今 已 经 60 
多 年 了 。 


这 
| YY |Y 


自然 语言 处 理 60 多 年 的 发 展 过 程 ， 基 本 上 可 以 分 成 两 个 阶段 。 早 期 的 20 
多 年 ， 即 从 20 世纪 50 年 代 到 70 年 代 ， 是 科学 家 们 走 弯 路 的 阶段 。 全 世 
界 的 科学 家 对 计算 机 处 理 自然 语言 的 认识 都 被 自己 局 限 在 人 类 学 习 语言 
的 方式 上 ， 也 就 是 说 ， 用 电脑 模拟 人 脑 ， 这 20 多 年 的 成 果 近 平 为 零 。 
直到 20 世纪 70 年 代 ， 一 些 自然 语言 处 理 的 先驱 重新 认识 这 个 问题 ， 找 
到 了 基于 数学 模型 和 统计 的 方法 ， 自 然 语 言 处 理 进 人 第 二 个 阶段 。30 多 
年 来 ， 这 个 领域 取得 了 实质 性 的 突破 ， 并 且 让 自然 语言 处 理 在 很 多 产品 
中 得 以 广泛 应 用 。 虽 然 早 期 自然 语言 处 理 的 工作 对 今天 没有 任何 指导 意 
义 ， 但 是 了 解 几 代 科 学 家 的 认识 过 程 ， 对 我 们 了 解 自然 语言 处 理 的 方法 
很 有 好 处 ， 同 时 也 让 我 们 避免 走 前 人 的 弯路 。 





A 


2.1 搞 不 消 后 面 是 人 还 是 机 器 
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让 我 们 回 到 1956 年 的 夏天 。28 岁 的 约翰 麦卡锡 (John McCarthy ) ,以 
及 同年 龄 的 马 文 ' 明 斯 茜 ( Marvin Minsky ) ,37 岁 的 罗切斯特 ( Nathaniel 
Rochester ) 和 40 岁 的 香农 ， 他 们 4 人 提议 在 麦卡锡 工作 的 达 特 茅 斯 学 
院 开 了 一 个 被 他 们 称 为 “ 达 特 茅 斯 夏季 人 工 智 能 研究 会 议 ”的 头脑 风暴 
式 的 研讨 会 。 参 加 会 议 的 还 有 6 位 年 轻 的 科学 家 ， 包 括 40 岁 的 赫 伯 特 ， 
西蒙 ( Herbert Simon ) 和 28 岁 的 艾 伦 ' 纽 维 尔 (Allen Newell ) 。 在 这 
次 研讨 会 上 ， 这 10 个 人 讨论 当时 计算 机 科学 尚未 解决 的 问题 ， 包 括 人 工 
智能 、 目 然 语 言 处 理 和 神经 网 络 等 。 人 工 智 能 这 个 提 法 便 是 在 这 次 会 议 
上 提出 的 。 这 10 个 人 , 除了 香农 ， 当 时 大 多 没有 什么 名 气 。 但 是 没关系 ， 
这 些 年 轻 人 黑 歌 无 闻 的 时 间 不 会 太 久 ， 后 来 这 些 人 都 非常 了 不 起 ， 其 中 
出 了 4 位 图 灵 奖 获得 者 (麦卡锡 、 明 斯 基 、 西 蒙 和 纽 维尔 ) 。 当 然 香 农 
不 必得 什么 图 灵 奖 ， 作 为 信息 论 的 发 明 人 ， 他 在 科学 史上 的 地 位 和 图 灵 
是 相当 的 ， 而 且 通 信和 领域 的 最 高 奖 就 是 以 他 的 名 字 命名 的 。 


达 特 茅 斯 会 议 的 意义 超过 10 个 图 灵 奖 。 这 10 位 后 来 被 证 明 是 20 世纪 IT 
领域 最 优秀 的 科学 家 ， 开创 了 很 多 今天 依然 活路 的 研究 领域 ， 而 这 些 研 
究 领 域 的 成 功 使 我 们 的 生活 变 得 十 分 美好 。 遗憾 的 是 , 受 历史 的 局 限 ， 
这 10 个 世界 上 最 聪明 的 头脑 一 个 月 的 火花 碰撞 ， 并 没有 产生 什么 了 不 起 
的 思想 ， 他 们 对 自然 语言 处 理 理 解 的 总 和 ， 甚 至 不 如 今天 一 位 世界 一 流 
大 学 的 博士 毕业 生 。 这 是 因为 在 当时 ， 全 世界 对 自然 语言 处 理 的 研究 都 
陷 人 了 一 个 误区 。 


那 时 候 学 术 界 对 人 工 智能 和 自然 语言 理解 的 普遍 认识 是 这 样 的 : 要 让 机 
紫 完 成 翻译 或 者 语音 识别 这 样 只 有 人 类 才能 做 的 事情 ， 就 必须 先 让 计算 
机 理解 自然 语言 ， 而 做 到 这 一 点 就 必须 让 计算 机 有 类 似 我 们 人 类 这 样 的 
智能 。 (今天 几乎 所 有 的 科学 家 都 不 坚持 这 一 点 ， 而 很 多 的 门外汉 还 误 
以 为 计算 机 是 靠 类 似 我 们 人 类 的 这 种 智能 解决 了 上 述 问题 。 ) 为 什么 会 
有 这 样 的 认识 ? 因为 人 类 就 是 这 么 做 的 , 道理 就 这 么 简单 .对 于 人 类 来 讲 ， 
一 个 能 把 英语 翻译 成 汉语 的 人 , 一 定 是 能 非常 好 地 理解 这 两 种 语言 的 。 这 
就 是 直觉 的 作用 。 在 人 工 智能 领域 ,包括 自然 语言 处 理 领 域 ， 后 来 把 这 


之 
美国 常 寄 苹 8 所 大 
学 之 一 ， 也 是 美国 
最 好 的 本 科教 育 学 
校 之 一 。 
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样 的 方法 论 称 作 “ 乌 飞 派 ”， 也 就 是 看 看 鸟 是 怎样 飞 的 ， 就 能 模仿 鸟 造 
出 飞机， 而 不 知 要 了 解 空气 动力 学 。 和 事实 上 我 们 知道 ， 怀 特 兄弟 发 明 飞 
机 靠 的 是 空气 动力 学 而 不 是 仿生 学 。 在 这 里 ， 我 们 不 要 笑话 我 们 前 辈 来 
自 于 直觉 的 天 真 想 法 ， 这 是 人 类 认识 的 普遍 规律 。 今 天 ， 机 器 翻 译 和 语 
音 识别 已 经 做 得 不 错 ， 并 且 有 上 亿 人 使 用 过 ,但 是 大 部 分 这 个 领域 之 外 
的 人 依然 错误 地 以 为 这 两 个 应 用 是 靠 计算 机 理解 了 自然 语言 而 完成 的 。 
事实 上 ,它们 全 都 靠 得 是 数学 ， 更 准确 地 说 是 靠 统计 。 


在 20 世纪 60 年 代 , 摆 在 科学 家 面前 的 问题 是 怎样 才能 理解 自然 语言 。: 

时 普遍 的 认识 是 首先 要 做 好 两 件 事 ， 即 分 析 语 句 和 获取 语义 。 这 实际 上 
又 是 惯性 思维 的 结果 -一 它 受 到 传统 语言 学 研究 的 影响 。 从 中 世纪 以 
来 ， 语 法 一 直 是 欧洲 大 学 教授 的 主要 课程 之 一 。 到 16 世纪 ， 伴 随 着 《和 圣 
经 》 被 翻译 介绍 到 欧洲 以 外 的 国家 , 这 些 国家 的 语言 语法 逐步 得 到 完善 。 
到 18、19 世纪 ， 西 方 的 语言 学 家 们 已 经 对 各 种 自然 语言 进行 了 非常 形式 
化 的 总 结 , 这 方面 的 论文 非常 多 , 形成 了 十 分 完备 的 体系 。 学 习 西 方 语 言 ， 
都 要 学 习 它 们 的 语法 规则 ( Grammar Rules ) 、 词 性 (Part of Speech ) 

和 构词法 (Morphologic ) 和 等。 当然， 应 该 承认 这 些 规则 是 我 们 人 类 学 习 
语言 (尤其 是 外 语 ) 的 好 工具 。 而 恰恰 这 些 语法 规则 又 很 容易 用 计算 机 
的 算法 描述 ， 这 就 更 坚定 了 大 家 对 基于 规则 的 自然 语言 处 理 的 信心 。 


对 于 语义 的 研究 和 分 析 ， 相 比较 而 言 要 不 系统 得 多 。 语 义 也 比 语法 更 难 
在 计算 机 中 表达 出 来 ， 因 此 直到 20 世纪 70 年代， 这 方面 的 工作 仍然 乏 
善 可 陈 。 值 得 一 提 的 是 ， 中 国 古 代 语 言 学 的 研究 主要 集中 在 语义 而 非 语 
法 上 。 很 多 古老 的 专著 ， 比 如 人 《说 文 解 字 》 等 都 是 语义 学 研究 的 成 果 。 
由 于 语义 对 于 我 们 理解 自然 语言 是 不 可 或 缺 的 ， 因 此 各 国政 府 在 把 很 大 
比例 的 研究 经 费 提供 给 “句法 分 析 ” 相 关 研 究 的 同时 ， 也 把 一 部 分 钱 给 
了 语义 分 析 和 知识 表示 等 课题 。 现 在 把 当时 科学 家 头脑 里 的 自然 语 育 
理 从 研究 到 应 用 的 依赖 关系 用 图 2.2 来 描述 。 


第 2 章 自然 语言 处 理 一 从 规则 到 统计 上 19 


应 用 层 自动 问答 》 《自动 摘要 


认 知 层 自然 语言 理解 


aa 


2.2 ”早期 对 自然 语言 处 理 的 理解 
让 我 们 集中 看 看 句法 分 析 。 先 看 下 面 一 个 简单 的 句子 
徐 志 摩 喜 欢 林 微 因 。 


这 个 句子 可 以 分 为 主语 、 动 词 短语 〔〈 即 谓语 ) 和 和 句号 三 部 分 “， 然 后 可 以 
对 每 个 部 分 作 进 一 步 分 析 ， 得 到 如 下 的 语法 分 析 树 (Parse Tree ) : 


ER 

_ 名 

图 2.3 句子 的 语法 分 析 树 

分 析 它 采用 的 文法 规则 通常 被 计算 机 科学 家 和 语言 学 家 称 为 重 写 规则 
( Rewrite Rules ) ， 具 体 到 上 面 的 句子 ， 重 写 规 则 包括 : 
句子 一 主语 谓语 句号 

主语 一 名 词 

谓语 一 动词 ”名 词 短 语 
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由 于 不 同 的 人 对 同 
一 个 句子 的 句法 分 
析 经 常 不 一 致 ， 因 
此 ， 本 书 凡 涉及 到 
句法 分 析 和 词性 标 
注 等 例子 ， 一 律 以 
宾 儿 法 尼 亚 大 学 语 
言 数 据 库 ( LDC ) 的 
标准 为 准 。 为 了 方 
便 读 者 阅读 ， 我 把 
LDC 的 各 种 起 示 拷 
实际 意义 从 英语 翻 
译 成 汉语 。 
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4 

在 自然 语言 处 理学 
术 领 域 ， 各国 为 了 
实验 结果 可 以 对 比 ， 
一 般 采 用 《 华尔街 
日 报 》 的 语 料 。 


5 
原 句 子 是 这 样 的 
“The Fed Chair 
man Ben Benanke 
told media yesterday 
that $700B bailout 
funds would be 
lended to hundreds 
of banks, insUrance 
companies and auto- 


makers.” 


名 词 短 语 一 名 词 
名 词 一 徐 志 
动词 一 癌 欢 

名 词 一 林徽因 
多 号 一 。 


20 世纪 80 年 代 以 前 ， 自 然 语 言 处 理工 作 中 的 文法 规则 都 是 人 写 的 ， 这 
和 后 来 采用 机 器 总 结 的 做 法 大 不 相同 。 直 到 2000 年 后 ， 很 多 公司 ， 比 如 
著名 的 机 器 翻译 公司 SysTran， 还 是 靠 人 来 总 结 文法 规则 。 


20 世 纪 60 年 代 , 基 于 齐 姆 斯 基 形 式 语 言 的 编译 器 技术 得 到 了 很 大 的 发 展 ， 
计算 机 高 级 程序 语言 都 可 以 概括 成 上 下 文 无 关 的 文法 , 这 是 一 个 在 算法 上 
可 以 在 多 项 式 时 间 内 解决 的 问题 ( Polynomial Problem, 详 见 附录 ) 。 高 
级 程序 语言 的 规则 和 上 述 自然 语言 的 规则 从 形式 上 看 很 相似 。 因 此 ， 很 
容易 想到 用 类 似 的 方法 分 析 自 然 语言 。 那 时 ， 科 学 家 们 设计 了 一 些 非 常 
简单 的 自然 语句 的 语法 分 析 器 ( Parser ) ,可 以 分 析 词 汇 表 为 百 十 来 个 词 、 
同时 长 度 为 个 位 数 的 简单 语句 〈 不 能 有 很 复杂 的 从 名 ) 。 


科学 家 们 原本 以 为 随 着 对 自然 语言 语法 概括 得 越 来 越 全 面 ， 同 时 计算 机 
计算 能 力 的 提高 ， 这 种 方法 可 以 逐步 解决 自然 评 言 理解 的 问题 。 但 是 这 
种 想法 很 快 遇 到 了 麻烦 。 我 们 从 上 图 可 以 看 出 , 句法 分 析 实 际 上 是 一 件 很 
罗 唆 的 事 : 一 个 短 短 的 句子 居然 分 析出 这 么 一 个 复杂 的 二 维 树 结构 ， 而 
且 居 然 需 要 八条 文法 规则 ， 即使 创 去 词性 标注 的 后 四 条 依然 还 有 四 条 。 当 
然 让 计算 机 处 理 上 述 分 析 还 是 不 难 的， 但 要 处 理 下 面 《华尔街 日 报 》“ 的 
一 个 真实 句子 就 不 是 那么 容易 办 到 了 : 


美联储 主席 本 ， 们 南 克 昨天 告诉 媒体 7 000 亿美 元 的 救助 资金 将 借 给 上 百 家 银 行 、 保 
险 公司 和 汽车 公司 。* 


虽然 这 个 句子 依然 符合 “句子 一 主语 谓语 句号 ”这 条 文法 规则 : 
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主语 【 美联储 主席 本 ， 伯 南 克 】|| 动词 短语 【 昨天 告诉 媒体 7 000 亿美 元 的 救助 资金 将 
借 给 上 百 家 银 行 、 保 险 公司 和 汽车 公司 】|| 句号 【。 】 


然后 , 接 下 来 可 以 进行 进一步 的 划分 , 比如 主语 “美联储 主席 本 伯 南 克 ” 
分 解 成 两 个 名 词 短语 “美联储 主席 ”和 “本 “' 伯 南 克 ”， 当 然 ， 前 者 修 
饰 后 者 。 对 于 动词 短语 也 可 以 做 同样 的 分 析 。 这 样 ,任何 一 个 线性 的 语句 ， 
可 以 被 分 析 成 这 样 一 棵 二 维 的 语法 分 析 树 ( Parse Tree ) 。 我 们 没有 将 
完整 的 分 析 树 画 出 来 ， 是 因为 在 这 本 书 一 页 纸 上 ， 无 法 画 出 整个 语法 
分 析 树 一 这 棵 树 非 常 大 ， 非 常 复 杂 。 应 该 讲 ， 单 纯 基 于 文法 规则 的 分 
析 秀 是 处 理 不 了 上 面 这 样 复杂 的 语句 的 。 


这 里 面 至 少 有 两 个 越 不 过 去 的 坎 儿 。 首 先 ， 要 想 通 过 文法 规则 覆盖 哪怕 
20% 的 真实 语句 ， 文 法 规则 的 数量 ( 不 包括 词性 标注 的 规则 ) 至 少 是 几 
万 条 。 语 言 学 家 几乎 已 经 是 来 不 及 写 了 ， 而 且 这 些 文法 规则 写 到 后 来 其 
至 会 出 现 矛 盾 , 为 了 解决 这 些 矛 盾 , 还 要 说 明 各 个 规则 特定 的 使 用 环境 。 
如 果 想 要 覆盖 50% 以 上 的 语句 ， 文 法 规则 的 数量 最 后 会 多 到 每 增加 一 个 
新 句子 , 就 要 加 入 一 些 新 的 文法 。 这 种 现象 不 仅 出 现在 计算 机 处 理 语 言 上 ， 
而 且 出 现在 人 类 学 习 和 自己 母语 不 同 语系 的 外 语 时 。 今 天 30 岁 以 上 的 人 
都 应 该 会 有 这 种 体会 ， 无 论 在 中 学 和 大 学 英语 考试 成 绩 多 么 好 ， 也 未 必 
能 考 好 GRE， 更 谈 不 上 看 懂 英 文 的 电影 。 原 因 就 是 我 们 即使 学 了 10 年 的 
英 请 语法 ， 也 不 能 涵盖 全 部 的 英语 。 


其 次 ， 即 使 能 够 号 出 涵盖 所 有 自然 语言 现象 的 语法 规则 和 集合， 用 计算 机 
解析 它 也 是 相当 困难 的 。 描 述 自然 语言 的 文法 和 计算 机 高 级 程序 语言 
的 文法 不 同 。 自 然 语 言 在 演变 过 程 中 ,产生 了 词义 和 上 下 文 相关 的 特 
性 。 因 此 ， 它 的 文法 是 比较 复杂 的 十 下文 有 关 文 法 ( Context Dependent 
Grammar ) ， 而 程序 语言 是 我 们 人 为 设计 的 ， 为 了 便于 计算 机 解码 的 上 
下 文 无 关 文 法 ( Context Independent Grammar ) ， 相 比 自然 语言 而 言 简 
单 得 多 。 理 解 两 者 的 计算 量 不 可 同日 而 语 。 


在 计算 机 科学 中 ， 图 灵 奖 得 主 高 德 纳 ( Donald Knuth ) 提出 了 用 计算 复 
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末 度 ( Computational Complexity， 请 见 附录 ) 来 衡量 算法 的 耗 时 。 对 于 
上 下 文 无 关 文 法 ， 算 法 的 复杂 度 基本 上 是 语句 长 度 的 二 次 方 ， 而 对 于 上 
下 文 有 关 文 法 ， 计 算 复杂 度 基 本 上 是 语句 长 度 的 六 次 方 。 也 就 是 说 ， 长 
度 同 为 10 的 程序 语言 的 语句 和 自然 语言 的 语句 ， 计 算 机 对 它们 进行 语法 
分 析 的 计算 量 ,， 后 者 是 前 者 的 一 万 倍 。 而 且 随 着 句子 长 度 的 增长 ， 二 者 
计算 时 间 的 差异 会 以 非常 快 的 速度 扩大 。 即 使 今天 ,有 了 很 快 的 计算 机 ( 英 
特 尔 i5 双核 处 理 器 ) ,分 析 上 面 这 个 二 三 十 个 词 的 句子 也 需要 几 分 钟 的 
时 间 。 因 此 ， 在 20 世纪 70 年 代 ， 即 使 是 制造 大 型 机 的 IBM 公司 ， 也 不 
可 能 采用 规则 的 方法 分 析 一 些 真 实 的 语句 。 


2 从 规则 到 统计 


在 20 世纪 70 年 代 ， 基 于 规则 的 句法 分 析 很 快 就 走 到 了 尽头 。 而 对 于 
语义 的 处 理 则 过 到 了 更 大 的 麻烦 。 首 先 ， 自 然 语 言 中 词 的 多 义 性 很 难 
用 规则 来 描述 ， 而 是 严重 依赖 于 上 上 下文， 其 至 是 “世界 的 知识 (World 
Knowledge ) ”或 者 常识 。1966 年 ， 著 名 人 工 智 能 专家 明 斯 基 ( 上 面 提 
到 的 达 特 茅 斯 会 议 的 发 起 者 之 一 ) 举 了 一 个 简单 的 反例 ， 说 明 计 算 机 处 
理 语言 的 难处 ，“The pen is in the box.” 和 “The box is in the pen.” 中 
两 个 pen 的 区 别 。 第 一 名 话 很 好 理解 ， 学 过 半年 英语 的 学 生 都 屏 。 但 是 
第 二 句 话 则 会 让 外 国人 很 困惑 ， 为 什么 盒子 可 以 六 到 钢笔 里 ? 其实, 第 
二 句 话 对 于 英语 是 母语 的 人 来 讲 很 简单 ， 因 为 这 里 pen 是 围栏 的 意思 。 
整 句 话 翻 译 成 中 文 就 是 “盒子 在 围栏 里 ”。 这 里 面 pen 是 指 钢笔 还 是 围 
栏 ， 通过 上 下 文 已 经 不 能 解决 ， 需 要 常识 ， 具 体 来 说 就 是 “钢笔 可 以 放 
到 盒子 里 ,但 是 盒子 比 钢笔 太 ， 所 以 不 能 放 到 钢笔 里 ”。 这 是 一 个 很 简 
单 的 例子 , 但 是 非常 明白 地 说 明了 当时 自然 语言 处 理 研 究 方 法 上 存在 的 
问题 。1966 年 的 明 斯 基 已 经 不 是 十 年 前 那个 默默 无 名 的 年 轻 人 了 ， 而 是 
当时 世界 上 数一数二 的 人 工 智能 专家 。 他 的 意见 对 美国 政府 的 科技 决策 
部 门 产 生 了 重大 影响 ， 自 然 科学 基金 会 等 部 门 对 传统 的 自然 语言 处 理 研 
究 非 常 失望 , 以 至 于 在 较 长 时 间 里 对 这 方面 的 研究 资助 大 大 减少 。 可 以 说 ， 
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利用 计算 机 处 理 目 然 语 言 的 努力 直到 20 世纪 70 年 代 初 是 相当 失败 的 。 


1970 年 以 后 统计 语言 学 的 出 现 使 得 自然 语言 处 理 重 获 新 生 ， 并 取得 了 今 
天 的 非凡 成 就 。 推 动 这 个 技术 路 线 转变 的 关键 人 物 是 弗 里 德里 克 . 蔷 里 尼 
克 ( Frederick Jelinek ) 和 他 领导 的 IBM 华 生 实验 室 ( 了. J. Watson )。 最 初 ， 
他 们 也 没有 想 解 决 整个 自然 语言 处 理 的 各 种 问题 ， 而 只 是 希望 解决 语音 
识别 的 问题 。 采 用 基于 统计 的 方法 ，IBM 将 当时 的 语音 识别 率 从 70% 提 
升 到 90%， 同 时 语音 识别 的 规模 从 几 百 单词 上 升 到 几 万 单词 ， 这 样 就 使 
得 语音 识别 有 可 能 从 实验 室 走 向 实际 应 用 。 关 于 这 段 历 史 ， 后 面 在 机 里 
尼克 的 故事 里 会 介绍 。 


IBM 华 生 实验 室 的 方法 和 成 就 对 自然 语言 处 理 界 的 震动 是 巨大 的 。 后 来 
成 为 IBM 和 Google 主管 研究 的 副 总 裁 阿 尔 弗 轩 德 斯 伯 格 特 (Alfred 
Spector ) 博士 ， 当 时 还 是 卡 内 基 - 梅 隆 大 学 教授 ， 他 2008 年 到 Google 
上 任 后 第 一 次 和 我 单独 面谈 时 ， 聊 起 当年 这 个 转变 的 过 程 。 他 说 ， 当 年 
卡 内 基 - 梅 隆 大 学 已 经 在 传统 的 人 工 智 能 领域 走 得 非常 远 了 ， 大 家 过 到 
了 很 多 跨 不 过 去 的 障碍 。 后 来 他 去 IBM 华 生 实验 室 参 观 ， 看 到 那里 依靠 
统计 的 方法 取得 的 巨大 成 绩 ， 连 他 一 个 做 系统 出 身 的 教授 也 能 感受 到 今 
后 在 这 个 领域 研究 方法 一 定 要 变化 。 李 开 复 修 过 他 的 课 , 算是 他 的 学 
生 ， 也 是 卡 内 基 - 梅 隆 大 学 最 早 从 传统 自然 语言 处 理 方法 转 到 基于 统计 
方法 的 人 。 李 开 复 和 洪 小 文 出 色 的 工作 ， 帮 助 他 们 的 论文 导师 拉 杰 , 雷 
迪 ( Raj Reddy ) 获得 了 图 灵 奖 。 


作为 世界 上 两 个 顶尖 公司 的 研究 部 门 第 一 把 手 的 斯 伯 格 特 ， 是 一 位 对 未 
来 研究 方向 判断 力 非常 敏锐 的 人 ， 当 时 看 出 这 一 点 并 不 奇怪 。 但 是 ， 并 
非 所 有 的 研究 者 都 认可 这 个 方向 。 基 于 规则 的 自然 语言 处 理 和 基于 统计 
的 自然 语言 处 理 的 争执 后 来 还 持续 了 15 年 左右 , 直到 20 世纪 90 年 代 初 。 
这 期 间 ， 两 路 人 马 各 自 组 织 和 召开 自己 的 会 议 。 如 果 在 共同 的 会 议 土 ， 则 
在 各 自 的 分 会 场 开 小 会 。 到 90 年 代 以 后 ， 坚 持 前 一 种 方法 的 研究 人 员 越 
来 越 少 ， 参 会 人 数 自然 也 越 来 越 少 ; 而 后 者 却 越 来 越 多 。 这 样 ， 自 然 语言 
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7 
世界 上 记 今 为 止 呀 
成 功 的 对 冲 基 金 ， 
由 著名 微分 几何 
数学 家 、 陈 省 身 - 
赛 蒙 斯 定理 的 发 
明 人 赛 壹 斯 (Jim 
Simons ) 创立 。 彼 
得 . 布朗 任 JT 部 门 
第 一 主管 。 


处 理 从 规则 到 统计 的 过 渡 就 完成 了 。15 年 ， 对 于 一 个 学 者 来 讲 是 一 段 非 
常 长 的 时 间 ， 如 果 哪 个 人 从 做 博士 开始 就 选 错 了 方向 并 且 坚 持 错误 ， 到 
15 年 后 发 现时 ， 基 本 上 这 一 辈子 可 能 就 一 事 无 成 了 。 


那么 为 什么 这 场 争议 持续 了 15 年 呢 ? 首 先 , 一 种 新 的 研究 方法 的 成 熟 需 
要 很 多 年 。 上 个 世纪 70 年 代 ， 基 于 统计 的 方法 的 核心 模型 是 通信 系统 加 
隐 含 马尔 可 夫 模 型 。 这 一 点 在 后 面 章节 会 详细 介绍 。 这 个 系统 的 输入 和 
输出 都 是 一 维 的 符号 序列 ， 而 且 保 持原 有 的 次 序 。 最 早 获得 成 功 的 语音 识 
别 是 如 此 , 接 下 来 第 二 个 获得 成 功 的 词性 分 析 也 是 如 此 。 而 在 句法 分 析 中 ， 
输入 的 是 一 维 的 句子 ， 而 输出 的 是 二 维 的 分 析 树 ; 在 机 器 翻译 中 ， 虽 
然 输 出 的 依然 是 一 维 的 句子 ( 另 一 种 语言 的 ) ， 但 是 次 序 会 有 很 大 的 变 
化 ， 所 以 上 述 的 方法 就 不 太 管 用 了 。1988 年 ，IBM 的 彼得 . 布朗 ( Peter 
Brown ) 等 人 提出 了 基于 统计 的 机 器 翻译 方法 “， 框 架 是 对 的 ， 但 是 效果 
很 差 , 因为 当时 既 没 有 足够 的 统计 数据 , 也 没有 足够 强大 的 模型 来 解决 不 
同 语言 语序 颠倒 的 问题 。 这 样 在 上 个 世纪 整个 80 年 代 ， 除 了 布朗 等 人 写 
了 这 篇 论文 ， 没 有 类 似 的 机 器 翻译 的 工作 有 效 展 开 ， 而 布朗 等 人 也 去 文 
艺 复兴 技术 公司 "发财 了 。 句 法 分 析 的 问题 就 更 加 复杂 ， 因 为 一 个 语法 成 
分 对 另 一 个 语法 成 分 的 修饰 关系 可 以 不 是 顺序 的 ， 而 是 中 间 间 隔 了 很 多 
短语 的 。 只 有 出 现 了 基于 有 向 图 的 统计 模型 才能 很 好 地 解决 复杂 的 句法 
分 析 。 在 很 长 一 段 时 间 里 ， 传 统 方法 的 捍卫 者 攻击 对 方 的 武器 就 是 ， 基 
于 统计 的 方法 只 能 处 理 浅 层 的 自然 语言 处 理 问题 ， 而 无 法 进入 深层 次 的 
研究 。 


过 去 的 25 年 里 ， 随 着 计算 能 力 的 提高 和 数据 量 的 不 断 增 加 ,过 去 看 似 不 
可 能 通过 统计 模型 完成 的 任务 ， 渐 渐 都 变 得 可 能 了 ， 包括 很 复杂 的 句法 
分 析 。 到 了 上 个 世纪 90 年 代 末 期 ， 大 家 发 现 通 过 统计 得 到 的 句法 规则 其 
至 比 语言 学 家 总 结 的 更 有 说 服 力 。2005 年 后 ， 随 着 Google 基于 统计 方 
法 的 翻译 系统 全 面 超 过 基于 规则 方法 的 SysTran 翻译 系统 ， 基 于 规则 方 
法 固守 的 最 后 一 个 堡垒 被 拨 掉 了 。 这 才 使 得 我 们 在 这 本 书 里 ， 可 以 用 数 
学 的 方法 ， 而 且 只 需要 用 数学 的 方法 给 出 我 们 今天 所 有 自然 语言 处 理 相 


第 2 章 自然 语言 处 理 一 从 规则 到 统计 川 25 


关 问 题 的 全 部 答案 。 


第 二 点 ， 也 很 有 意思 ， 基 于 统计 的 方法 代替 传统 的 方法 ， 需 要 等 原 有 的 
一 批语 言 学 家 退休 。 这 在 科学 史上 也 是 经 常 发 生 的 事 。 钱 钟 书 在 《围城 》 
中 讲 ， 老 科学 家 可 以 理解 成 “ 老 的 科学 家 ”或 者 “ 老 科 学 的 家 ”两 种 。 
如 果 是 后 者 ， 他 们 年 纪 不 算 老 ， 但 是 已 经 落伍 ， 大 家 必须 耐心 等 他 们 退 
休 让 出 位 子 。 毕竟, 不 是 所 有 人 都 乐意 改变 目 己 的 观点 , 无 论 对 错 。 当 然 ， 
等 这 批 人 退休 之 后 ， 科 学 就 会 以 更 快 的 速度 发 展 。 因 此 ， 我 常 想 ， 我 自 
己 一 定 要 在 还 不 太 糊 涂 和 固执 时 就 退休 。 





图 2.4 唉 ， 经 费 又 给 那些 “ 老 科 学 家 ” 拿 走 了 


在 科学 家 的 新 老 交替 上 , 除了 村 里 尼克 直接 领导 的 IBM- 约翰 ' 霍 普 金 斯 系 
统 (包括 我 本 人 ) ， 米奇 马 库 斯 ( Mitch Marcus ) 领导 的 宾夕法尼亚 大 
学 也 起 了 很 大 的 作用 。 马 库 斯 设法 获得 了 美国 自然 科学 基金 会 的 支持 ， 设 
立 和 领导 了 LDC 项 目 ， 采 集 和 整理 全 世界 主要 语言 的 语 料 ， 并 且 培 养 了 
一 批 世界 级 的 科学 家 ， 让 他 们 到 世界 主要 的 一 流 实验 室 里 挑大梁 。 这 前 后 
两 拔 人 形成 了 一 个 事实 上 的 学 派 ， 占 据 了 全 世界 自然 语言 处 理学 术 界 的 主 
要 位 置 。 


同时 ， 自 然 语 言 处 理 的 应 用 在 过 去 25 年 里 也 发 生 了 巨大 的 变化 。 比 如 对 

自动 问答 的 需求 很 大 程度 上 被 网 页 搜索 和 数据 挖掘 替代 了 。 而 新 的 应 用 越 

来 越 依靠 数据 的 作用 和 浅 层 的 自然 语言 处 理 的 工作 ， 这 就 在 客观 上 大 大 加 
生 
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速 了 目 然 语言 处 理 研究 从 基于 规则 的 方法 到 基于 统计 的 方法 的 转变 。 


今天 ， 几乎 不 再 有 科学 家 宣称 自己 是 传统 的 基于 规则 方法 的 捍卫 者 。 而 
目 然 语言 处 理 的 研究 也 从 单纯 的 句法 分 析 和 语义 理解 ， 变 成 了 非常 她 近 
应 用 的 机 器 翻译 、 语 音 识别 、 文 本 到 数据 库 自 动 生 成 、 数 据 挖掘 和 知识 
的 获取 等 等 。 


3 小 结 


基于 统计 的 自然 语言 处 理 方法 ， 在 数学 模型 上 和 通信 是 相通 的 ， 甚 至 就 
是 相同 的 。 因 此 ， 在 数学 意义 上 自然 语言 处 理 义 和 语言 的 初衷 一 通信 
联系 在 一 起 了 。 但 是 ， 科 学 家 们 认识 到 这 个 联系 却 花 了 几 十 年 的 时 间 。 
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我 们 在 前 面 的 章节 一 直 强 调 ， 自 然 语 言 从 它 产 生 开 始 ， 逐渐 演变 成 一 种 
上 下 文 相 关 的 信息 表达 和 传递 的 方式 ， 因 此 让 计算 机 处 理 自然 语言 ， 一 
个 基本 的 问题 就 是 为 自然 语言 这 种 上 下 文 相关 的 特性 建立 数学 模型 。 这 
个 数学 模型 就 是 在 自然 语言 处 理 中 常 说 的 统计 语言 模型 ( Statistical 
Language Model ) , 它 是 今天 所 有 自然 语言 处 理 的 基础 ， 并 且 广 泛 应 用 
于 机 器 翻译 、 语 音 识别 、 印 刷 体 或 手写 体 识 别 、 拼 写 纠 错 、 汉 字 输 入 和 
文献 查询 。 


1 用 数学 的 方法 描述 语言 规律 


统计 语言 模型 产生 的 初衷 是 为 了 解决 语音 识别 问题 。 在 语音 识别 中 , 计 
算 机 需要 知道 一 个 文字 序列 是 否 能 构成 一 个 大 家 理解 而 且 有 意义 的 何 
子 ， 然 后 显示 或 者 打印 给 使 用 者 。 


比如 在 上 一 章 的 例子 中 : 


美联储 主席 本 ， 伯 南 克 昨天 告诉 媒体 7 000 亿美 元 的 救助 资金 将 僧 给 上 百 家 银 行 、 保 
险 公 司 和 汽车 公司 。 


这 旬 话 就 很 通顺 ， 意 思 也 很 明 蝗 。 
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如 果 改 变 一 些 词 的 顺序 ， 或 者 替换 掉 一 些 词 ， 将 这 和 句 话 变 成 : 


本 ， 伯 南 克 美联储 主席 昨天 7 000 亿美 元 的 救助 资金 告诉 媒体 将 供给 银行 、 保 险 公司 
和 汽 车 公司 上 百 家 。 


意思 就 含混 了 ， 虽然 多 少 还 能 猜 到 一 点 。 
但 是 如 果 再 换 成 ; 


联 主 美 储 席 本 “' 伯 诉 体 南 将 借 天 的 救 克 告 媒 昨 助 资金 70 元 亿 00 美 给 上 百 百 次 家 银 保 
行 、 汽 车 险 公司 公司 和 。 


基本 上 读者 就 不 知 所 云 了 。 


如 果 间 一 个 没有 学 过 自然 语言 处 理 的 人 为 什么 会 变 成 这 样 , 他 可 能 会 说 ， 
第 一 个 句子 合乎 语法 ， 词 义 清晰 。 第 二 个 句子 不 合乎 语法 ,但 是 词义 还 
清晰 。 第 三 个 连词 义 都 不 清晰 了 。20 世纪 70 年 代 以 前 ， 科 学 家 们 也 是 
这 样 想 的 ， 试 图 判断 这 个 文字 序列 是 否 合乎 文法 、 含 义 是 否 正 确 等 。 
正如 我 们 上 节 所 讲 ， 这 条 路 走 不 通 。 而 贾 里 尼克 从 另外 一 个 角度 来 看 待 
这 个 问题 ， 用 一 个 简单 的 统计 模型 非常 漂亮 地 搞定 了 它 。 


杭 里 尼克 的 出 发 点 很 简单 : 一 个 甸子 是 否 合理 ,就 看 看 它 的 可 能 性 大 小 如 
何 。 至 于 可 能 性 就 用 概率 来 衡量 。 第 一 个 句子 出 现 的 概率 大 致 是 10“， 
第 二 个 句子 出 现 的 概率 是 10“” 次 方 ,， 第 三 个 句子 出 现 的 概率 是 10”。 
因此 ， 第 一 个 最 有 可 能 ， 它 的 可 能 是 第 二 个 甸子 的 10 万 倍 ， 是 第 三 个 
句子 的 一 百 亿 亿 亿 亿 亿 亿 伴 。 这 个 方法 更 普通 而 严格 的 描述 是 : 


假定 3 表示 某 一 个 有 意义 的 句子 ， 由 一 连 串 特定 顺序 排列 的 词 
Wi Wz,…,Wn 组 成 ， 这 里 nn 是 句子 的 长 度 。 现 在 ,我 们 想 知 道 $ 在 文本 中 
出 现 的 可 能 性 ， 也 就 是 数学 上 所 说 的 5 的 概率 P(S) 。 当 然 ， 可 以 把 人 类 
有 中 以 来 讲 过 的 话 统计 一 下 ， 同 时 不 要 忘记 统计 进化 了 几 百 年 上 千年 间 
可 能 讲 过 的 话 ， 就 知道 这 句 话 可 能 出 现 的 概率 了 。 这 种 方法 恺 怕 连 傻子 
都 知道 行 不 通 。 因 此 ， 和 需要 有 个 模型 来 估算 它 。 既 然 S = ww ww,， 那 
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么 不 妨 把 P(S) 展开 表示 : 
P(S) = P(Wi, Wz, ..., Wn) ( 3.1) 


利用 条 件 概 率 的 公式 ，5 这 个 序列 出 现 的 概率 等 于 每 一 个 词 出 现 的 条 件 
概率 相 乘 ， 于 是 P(w,w>,…,wJ 可 展开 为 : 


PCw Wo, ..., Wn) 


= Pw) .PCwzlwa) .PP(wslw wz) POWn hw, Wo .., wn_1) ( 3.2) 


其 中 P(w) 表 示 第 一 个 词 Wi 出现 的 概率 '; P(wz|wi) 是 在 已 知 第 一 个 词 
的 前 提 下 ， 第 二 个 词 出 现 的 概率 ; 以 此 类 推 。 不 难看 出 ， 到 了 词 wn， 
它 的 出 现 概 率 取决 于 它 前 面 的 所 有 词 。 


从 计算 上 来 看 ， 第 一 个 词 的 条 件 概 率 P(wi) 很 容易 算 ， 第 二 个 词 的 条 件 
概率 P(wzlw1) 也 还 不 太 麻 烦 ， 第 三 个 词 的 条 件 概 率 P(wslwu wz) 已 经 非 
常 难 算 了 ， 因 为 它 涉及 到 三 个 变量 Wi,w2,ws ， 每 个 变量 的 可 能 性 都 是 一 
种 语言 字典 的 大 小 。 到 了 最 后 一 个 词 wa， 条 件 概率 PC(w|wi,wz,…, wn-1) 
的 可 能 性 太 多 ， 无 法 估算 。 怎 么 办 ? 


19 世纪 到 20 世纪 初 ， 俄 罗斯 有 个 数学 家 叫 马 尔 可 夫 (Andrey Mar- 
kov) ， 他 给 了 个 偷懒 但 还 颇 为 有 效 的 方法 ， 也 就 是 每 当 遇 到 这 种 情况 
时 ， 就 假设 任意 一 个 词 wi 出 现 的 概率 只 同 它 前 面 的 词 Wi! 有关， 于 是 
问题 就 变 得 很 简单 了 。 这 种 假设 在 数学 上 称 为 马尔 可 夫 假设 :。 现 在 ，S 
出 现 的 概率 就 变 得 简单 了 : 


P(S) 
= P(wi) * Pwalwi) : POwalwa) :POWwilWi) Plwn lwWn-1) (3.3) 


公式 (3.3 ) 对 应 的 统计 语言 模型 是 二 元 模型 (Bigram Model ) 。 上 顺便 
提 一 句 ， 和 语言 模型 相关 的 很 多 名 词 的 中 文 翻 译 ， 最 早 是 我 20 多 年 前 
提出 的 , 依然 沿用 至 今 。Bigram Model 当初 我 译 为 二 元 文法 模型 ， 


1 

Ptw| < 3 >)， 即 这 个 
词 在 句子 开头 <*> 
条 件 下 的 概率 。 


2 

马尔 可 夫 在 4906 年 
首先 做 出 了 这 类 过 
程 。 而 将 此 一 般 化 
到 可 数 无 限 状 态 空 间 
是 由 柯 尔 莫 果 洛 夫 在 
1936 年 给 出 的 。 
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现在 我 觉得 直接 叫 二 元 模型 更 准确 。 当 然 ， 也 可 以 假设 一 个 词 贝 前 面 
N 一 1 个 词 决 定 ， 对 应 的 模型 稍微 复杂 些 ， 被 称 为 N 元 模型 。 我 们 会 在 
下 一 节 中 介绍 。 


接 下 来 的 问题 就 是 如 何 估计 条 件 概率 P(wilw;-1) 。 根 据 它 的 定义 : 


P(Wi-1Wi) 
P(Wi-1) 


P(wijw;_-1) = (3.4 ) 

而 估计 联合 概率 P(Wi-1,wi) 和 边缘 概率 P(wi-1) ,现在 变 得 很 简单 。 因 为 
有 了 大 量 机 读 文 本 ， 也 就 是 专业 人 士 讲 的 语料库 (Corpus ) ， 只 要 数 一 
数 wi-1 wi 这 对 词 在 统计 的 文本 中 前 后 相 邻 出现 了 多 少 次 #(Wi-_1Wi) ， 以 
及 Wi-i 本 身 在 同样 的 文本 中 出 现 了 多 少 次 #(wi-1) ， 然 后 用 两 个 数 分 别 
除 以 语料库 的 大 小 #， 即 可 得 到 这 些 词 或 者 二 元 组 的 相对 频 度 : 


#(Wi_1,Wi) 


(wow = — ( 3.5 ) 
f (wD) = En (3.6) 
根据 大 数 定理 ， 只 要 统计 量 足 够 ， 相 对 频 度 就 等 于 概率 ， 即 
P(wi_w wi) ~ re (3.7 ) 
P(wi_1) ~ Tir (3.8 ) 


而 PCwilw:-z 就 是 这 两 个 数 的 比值 ， 再 考虑 到 上 面 的 两 个 概率 有 相同 的 
分 母 ， 可 以 约 反 ， 因 此 


#(Wi_1Wi) 


3.9 
#(Wi—1) ( ) 


P(wilwi_1) 之 


现在 ， 读 者 也 许 已 经 开始 能 感受 到 数学 的 美妙 之 处 了 ， 它 把 一 些 复杂 的 
问题 变 得 如 此 的 简单 。 这 似乎 有 点 让 人 难以 置信 ， 用 这 人 么 简单 的 数学 模 
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型 能 解决 复杂 的 语音 识别 、 机 器 翻译 等 问题 ， 而 用 很 复杂 的 文法 规则 和 
人 工 管 能 却 做 不 到 。 其 实 不 光 是 普通 人 ， 就 连 很 多 语言 学 家 都 曾 质疑 过 
这 种 方法 的 有 效 性 ， 但 事实 证 明 ， 统 计 语 言 模型 比 任何 已 知 的 借助 某 种 
规则 的 解决 方法 更 有 效 。 我 们 不 妨 看 两 个 真实 的 例子 。 


在 Google 语音 搜索 Google Voice 和 中 英文 自动 翻译 ( 罗 塞 塔 ) 中 ,发 
挥 了 最 重要 作用 的 就 是 这 个 统计 语言 模型 。 美 国标 准 局 (NIST ) 
从 2001 年 起 对 所 有 的 机 器 翻 译 系统 进行 了 评测 ，Google 的 罗 塞 塔 
(Rosetta ) 系统 (大 家 应 该 知道 它 为 什么 起 这 个 名 字 ) 2007 年 第 一 
次 参加 NIST 的 评测 ， 这 个 仅仅 开发 了 两 年 的 系统 便 一 鸣 惊 人 地 夺 得 
第 一 ， 而 且 评 测 分 数 高 出 所 有 基于 规则 的 系统 很 多 很 多 ， 要 知道 后 者 
开发 了 十 几 年 。 这 里 面 的 秘密 武器 就 是 一 个 比 其 他 竞争 对 手 大 上 百倍 
的 语言 模型 。 


在 IBM 提出 统计 语言 模型 十 几 年 后 的 20 世纪 80 年 代 末 ， 还 在 卡 内 基 - 
梅 隆 大 学 做 博士 生 的 李开复 用 统计 语言 模型 把 997 个 词 的 语音 识别 问题 
简化 成 了 一 个 相当 于 20 个 词 的 识别 问题 ， 实 现 了 有 史 以 来 第 一 次 大 词 
汇 量 非特 定 人 连续 语音 的 识别 。 


当然 , 真正 实现 一 个 好 的 统计 语言 模型 , 还 有 许多 细节 问题 需要 解决 ， 
比如 ， 如 果 上 面 公式 中 的 这 对 词 (wi-1,wi) 在 语料库 中 没 出 现 ， 或 只 出 现 
一 两 次 ,估算 它 的 概率 就 有 点 环 手 了 。 村 里 尼 殉 及 其 同事 的 贡献 不 仅 在 
于 提出 了 统计 语言 模型 ， 而 且 还 很 漆 亮 地 解决 了 所 有 的 细节 问题 。 这 些 
我 们 将 在 下 一 节 中 介绍 。 一 般 的 读者 如 果 并 不 需要 在 工作 中 使 用 统计 语 
言 模 型 ， 也 不 想 关 心 数学 味道 太 浓 的 细节 ， 阅 读 可 以 到 此 打住 了 ， 因 为 
统计 语言 模型 的 基本 原理 已 经 介绍 完了 。 数 学 的 精彩 之 处 就 在 于 简单 的 
模型 可 以 干 大 事 。 


3 
指 N 元 组 的 数量 。 
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2 延伸 阅读 ; 统计 语言 模型 的 工程 诀 穿 
读者 知识 背景 : 概率 论 和 数理 统计 。 


这 本 书 的 大 多 数 章 节 都 会 有 延伸 阅读 部 分 ， 主 要 写 给 专业 读者 和 有 兴趣 
学 习 这 里 面 的 数学 原理 的 人 ， 但 是 这 些 内 容 未 必 适 合 所 有 的 读者 。 为 了 
节省 大 家 的 时 间 ， 延 伸 阅 读 部 分 会 标示 出 对 读者 背景 知识 的 要 求 ， 大 家 
可 以 自行 次 和 定 是 否 跳 过 这 部 分 内 容 。 


2.1 高 阶 语言 模型 


上 一 节 中 公式 (3.3 ) 模型 的 假设 前 提 是 ， 句 子 中 的 每 个 词 只 和 前 面 一 
个 词 有 关 ， 而 和 更 前 面 的 词 就 无 关 了 ， 这 似乎 太 简 化 了 ， 或 者 说 近似 得 
过 头 了 。 确 实 是 这 样 ， 读 者 很 容易 找到 一 些 例 子 : 某 个 词 和 前 面 第 二 个 
词 有 关 ， 比 如 说 “美丽 的 花 末 ”， 花 来 其 实 和 美丽 有 关 。 因 此 ， 更 普遍 
的 假设 是 某 个 词 和 前 面 阁 干 个 词 有 关 。 


假定 文本 中 的 每 个 词 wi 和 前 面 N 一 1 个 词 有 关 ， 而 与 更 前 面 的 词 无 关 ， 这 
样 当 前 词 wi 的 概率 只 取决 于 前 面 N 一 1 个 词 PO(Wwi_wzis Wi_N+21 Wi-i)。 
因此 ， 


P{Wi]Wis, WwW2 ,Wi_1) = POWi[Wi w+ Wi_N#2 ,Wi_1) (3.10 ) 


公式 ( 3.10 ) 的 这 种 假设 被 称 为 N 一 1 阶 马 尔 可 夫 假 设 ， 对 应 的 语言 楼 
型 称 为 六 元 模型 (N-Gram Model )。N = 2 的 二 元 模型 就 是 公式 (3.3 ) ， 
而 N = 1 的 一 元 模型 实际 上 是 一 个 上 下 文 无 关 的 模型 ， 也 就 是 假定 当前 
词 出 现 的 概率 与 前 面 的 词 无 关 。 而 在 实际 应 用 中 最 多 的 是 N = 3 的 三 元 
模型 ， 更 高 阶 的 模型 就 很 少 使 用 了 。 


为 什么 N 一 般 取 值 都 这 人 么 小 呢 ? 这 里 面 主 要 有 两 个 原因 。 首 先 ，N 元 模 
型 的 大 小 〈 或 者 说 空间 复杂 度 ) 几乎 是 NN 的 指数 函数 ， 即 0(IVI*) ， 这 里 
VI 是 一 种 语言 词典 的 词汇 量 ， 一 般 在 几 万 到 几 十 万 个 。 而 使 用 NN 元 模型 
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的 速度 (或 者 说 时 间 复 杂 度 ) 也 几乎 是 一 个 指数 函数 , 即 0(IVI”*)。 因 此， 
N 不 能 很 大 。 当 N 从 1 到 2, 再 从 2 到 3 时 ,模型 的 效果 上 升 显著 。 而 
当 模 型 从 3 到 4 时， 效果 的 提升 就 不 是 很 显著 了 ， 而 资源 的 耗费 增加 却 
非常 快 ， 所 以 ,除非 是 不 惜 资源 为 了 做 到 极致 ， 很 少 有 人 使 用 四 元 以 上 
的 模型 。 Google 的 罗 塞 塔 翻译 系统 和 语言 搜索 系统 , 使 用 的 是 四 元 模型 ， 
该 模型 存储 于 500 台 以 上 的 Google 服务 器 中 。 


最 后 还 有 一 个 问题 ， 是 否 三 元 或 者 四 元 甚至 更 高 阶 的 模型 就 能 覆盖 所 有 
的 语言 现象 呢 ? 答 案 显 然 是 否定 的 。 因 为 目 然 语言 中 ， 上 下 文 之 间 的 相 
关 性 可 能 跨度 非常 大 ， 甚 至 可 以 从 一 个 段落 跨 到 另 一 个 段落 。 因 此 ， 即 
使 模型 的 阶 数 再 提高 ， 对 这 种 情况 也 无 可 奈何 ， 这 就 是 马尔 可 夫 假 
设 的 局 限 性 ， 这 时 就 要 采用 其 他 一 些 长 程 的 依赖 性 (Long Distance 
Dependency ) 来 解决 这 个 问题 了 ， 在 以 后 的 章节 还 会 有 介绍 。 


2.2 ”模型 的 训练 、 零 概率 问题 和 平滑 方法 


使 用 语言 模型 需要 知道 模型 中 所 有 的 条 件 概率 , 我 们 称 之 为 模型 的 参数 。 
通过 对 语 料 的 统计 ， 得 到 这 些 参 数 的 过 程 称 作 模型 的 训练 。 在 前 一 节 中 
提 到 的 模型 训练 方法 ， 似 乎 非常 简单 。 比 如 对 于 二 元 模型 ( 3.3 ) ， 就 是 
拿 两 个 数字 ，(wWi-1 Wi) 在 语 料 中 同 现 的 次 数 #(wi-vwiD 和 (wi-1) 在 语 料 
中 单独 出 现 的 次 数 #(wi-_1)， 计 算 一 下 比值 即 可 。 但 问题 是 ， 如 果 同 现 的 
次 数 #(wWi-1,wi) = 0 怎么 办 ， 是 否 意 味 着 条 件 概率 P(wijwii) = 0? 反 过 
来 如 果 #(w-uwi) 和 #(wi_i) 都 只 出 现 了 一 次 ， 是否 敢 得 出 P(wilwi-1) = 1 
这 样 非常 绝对 的 结论 ”这 就 涉及 到 统计 的 可 靠 性 问题 了 。 


在 数理 统计 中 ,我 们 之 所 以 敢于 用 对 采样 数据 的 观察 结果 来 预测 概率 , 是 
因为 有 大 数 定理 (Law of Large Numbers ) 在 背后 做 支持 ， 它 的 要 求 是 
有 足够 的 观测 值 。 例 如 ， 在 某 镇 中 心 的 楼 上 ， 看 到 楼 下 扯 黑 扩 掖 的 人 和 群 
中 有 550 个 男性 ，520 个 女性 ， 我 们 大 致 可 以 认为 这 个 地 方 男性 出 现 的 
概率 是 550 / (550 + 520 ) = 51.4%， 而 女性 出 现 的 概率 为 520 / (550 
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4 
以 Google IME 为 参 
考 。 


+ 520 ) = 48.6%。 但 是 ， 如 果 是 一 大 早 ， 我 们 从 楼 上 看 下 去 ,只 有 5 个 
人 ,4 个 女性 1 个 男性 ， 我 们 是 否 敢 说 ， 女 性 出 现 的 概率 为 80%， 而 男 
性 只 有 20% 呢 ?显然 不 敢 , 因为 这 5 个 人 出 现 的 情况 有 非常 大 的 随机 性 。 
也 许 第 二 天 清晨 ， 楼 下 只 有 3 个 人 且 全 是 男性 ， 我 们 同样 不 慑 得 到 女性 
不 会 出 现在 这 里 的 预测 。 


这 是 生活 中 的 常识 。 但 是 在 估计 语言 模型 的 概率 时 ,很 多 人 恰恰 息 了 这 
个 道理 ， 因 此 训练 出 来 的 语言 模型 “不 管用 ”， 然 后 回 过 头 来 怀疑 这 个 
方法 是 否 有 效 。 其 实 这 个 方法 屡试不爽 ,今天 的 数字 通信 很 大 程度 就 建 
立 在 这 个 基础 上 ， 只 是 如 何 使 用 的 问题 而 已 。 那 么 如 何 正 确 地 训练 一 个 
语言 模型 呢 ? 


一 个 直接 的 办 法 就 是 增加 数据 量 ， 但 是 即使 如 此 ， 依 然 会 遇 到 零 概 率 或 
者 统计 量 不 足 的 问题 。 假 定 要 训练 一 个 汉语 的 语言 模型 ， 汉 请 的 词汇 量 
大 致 是 20 万 这 个 量 级 4， 训练 一 个 三 元 模型 就 有 2000002= 8 x 10 ”个 
不 同 的 参数 。 假 如 从 互联 网 上 人 刨 去 垃圾 数据 ， 有 100 亿 个 有 意义 的 中 文 
网 页 ， 这 已 经 是 相当 高 估 的 数据 ， 每 个 网 页 平均 1000 词 。 那 么 ， 即 使 
将 互联 网 上 全 部 的 中 文 内 容 都 用 作 训 练 ， 依 然 只 有 10 ， 因 此 ， 如 果 用 
直接 的 比值 计算 概率 ， 大 部 分 条 件 概率 依然 是 零 ， 这 种 模型 我 们 称 之 为 
“不 平滑 ”。 在 实际 应 用 中 , 统计 语言 模型 的 零 概 率 问题 是 无 法 回避 的 ， 
必须 解决 。 


训练 统计 语言 模型 的 艺术 就 在 于 解决 好 统计 样本 不 足 时 的 概率 估计 问 
题 。1953 年 古 德 (1. J. Good ) 在 他 老板 图 灵 (Alan Turing ) (就 是 计 
算 机 科学 史上 的 图 灵 ) 的 指导 下 , 提出 了 在 统计 中 相信 可 靠 的 统计 数据 ， 
而 对 不 可 信 的 统计 数据 打折 扣 的 一 种 概率 估计 方法 ， 则 时 将 折扣 出 来 的 
那 一 小 部 分 概率 给 予 未 看 见 的 事件 (Unseen Events ) 。 上 古 德 和 图 灵 还 
给 出 了 一 个 很 漂亮 的 重新 估算 概率 的 公式 ， 这 个 公式 后 来 被 称 为 古 德 - 
图 灵 估 计 (Good-Turing Estimate ) 。 
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古 德 - 图 灵 估 计 的 原理 是 这 样 的 : 对 于 没有 看 见 的 事件 。 我们 不 能 认为 
开发 生 的 概率 就 是 零 ,， 因此 我 们 从 概率 的 总 量 ( Probability Mass ) 中 ， 
分 配 一 个 很 小 的 比例 给 予 这 些 没 有 看 见 的 事件 ( 图 3.1 ) 。 这 样 一 来 ， 
看 见 的 那些 事件 的 概率 总 和 就 要 小 于 1 了 ， 因 此 ， 需 要 将 所 有 看 见 的 事 
件 概率 调 小 一 点 。 至 于 小 多 少 ， 要 根据 “ 越 是 不 可 信 的 统计 折扣 越 多 ” 
的 方法 进行 。 









看 见 的 事件 | : 


看 见 的 事件 
的 概率 总 辕 


未 着 见 的 事件 
的 概率 总 量 






3.1 从 左 到 右 的 变化 ， 把 一 部 分 看 得 见 的 事件 的 概率 分 布 给 未 看 见 的 事件 
以 统计 词典 中 的 每 个 词 的 概率 为 例 ， 来 说 明 古 德 - 图 灵 估 计 公 式 。 


假定 在 语料库 中 出 现 r 次 的 词 有 NM 个 ， 特 别 地 ， 未 出现 的 词 数 量 为 No。 
语料库 的 大 小 为 N。 那 么 , 很 显然 


N = YrN, ( 3.11) 


r=1 


出 现 r 次 的 词 在 整个 语料库 中 的 相对 频 度 (Relative Frequency ) 则 是 
rAN， 如 果 不 做 任何 优化 处 理 ， 就 以 这 个 相对 频 度 作为 这 些 词 的 概率 
估计 。 


现在 假定 当 7 比较 小 时 , 它 的 统计 可 能 不 可 靠 , 因此 出 现 r 次 的 那些 词 在 
计算 它们 的 概率 时 要 使 用 一 个 更 小 一 点 的 次 数 , 是 d.( 而 不 直接 使 用 r ) ， 
十 德 - 图 灵 估 计 按 照 下 面 的 公式 计算 dr : 


d = (r+ DD): Na/N, (3.12 ) 
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Ddr:N.=N ( 3.13) 


一 般 来 说 ， 出 现 一 次 的 词 的 数量 比 出 现 两 次 的 多 ， 出 现 两 次 的 比 出 现 三 
次 的 多 。 这 种 规律 称 为 Zipf 定律 ( Zipf's Law ) 。 图 3.2 是 一 个 小 语 料 
库 中 ,出现 > 次 的 词 数量 N 和 7r 的 关系 。 


Nr 
1000 


900 
800 
700 
600 
500 
400 
300 
200 
100 





13 5 7 9713 15 77 1 2 23 25 27 29 313335 37 39 41 43 454749 


图 3.2 Zipf 定律 : 出 现 r 次 词 的 数量 Nr 和 7 的 关系 


可 以 看 出 > 越 大 ， 词 的 数量 心 越 小 即 Ns < NN。 因 此 ,一 般 情况 下 
dr<7 ， 而 do>0 。 这 样 就 给 未 出 现 的 词典 予 了 一 个 很 小 的 非 零 值 ， 从 而 
解决 了 零 概 率 的 问题 。 同 时 下 调 了 出 现 频率 很 低 的 词 的 概率 。 当 然 ， 在 
实际 的 自然 语言 处 理 中 ,一般 对 出 现 次 数 超过 某 个 国 值 的 词 ， 频 率 不 下 
调 ， 只 对 出 现 次 数 低 于 这 个 着 值 的 词 ， 频 率 才 下 调 ， 下 调 得 到 的 频率 总 
和 给 未 出 现 的 词 。 


这 样 出 现 r 次 的 词 的 概率 估计 为 d./N 。 于 是 ， 对 于 频率 超过 一 定 疝 值 
的 词 ， 它 们 的 概率 估计 就 是 它们 在 语料库 中 的 相对 频 度 ， 对 于 频率 小 于 
这 个 立 值 的 词 ， 它们 的 概率 估计 就 小 于 它们 的 相对 频 度 ， 出 现 次 数 越 少 
的 ， 折 扣 越 多 。 对 于 未 看 见 的 词 ， 也 给 予 了 一 个 比较 小 的 概率 。 这 样 所 
有 词 的 概率 估计 都 很 平滑 了 。 
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对 于 二 元 组 (wi_1,wi) 的 条 件 概率 估计 Plwilwi_1) 也 可 以 做 同样 的 处 理 。 

我 们 知道 ， 通 过 前 一 个 词 wi_i 预测 后 一 个 词 w 时 ， 所 有 的 可 能 情况 的 

条 件 概率 总 和 应 该 为 1， 即 
DPWiwi) = 1 


对 于 出 现 次 数 非常 少 的 二 元 组 (wi_1,wi) ， 它 们 的 出 现 次 数 需要 按照 古 德 - 
图 灵 的 方法 打折 扣 ， 这 样 PCwi|wi_1) < 1， 同 时 意味 着 有 一 部 分 概率 量 


Wi_iWt seen 


没有 分 配 出 去 ， 留 给 了 没有 看 到 的 二 元 组 (wi-1wi)。 基 于 这 种 思想 ， 估 计 
二 元 模型 概率 的 公式 如 下 : 


(3.14 ) 


fwilwi-1) if #(Wi_, wi) 过 了 
PWwilwii) = 4 forWwilwi) if O0<#(Ww-vw) <T (3.15 ) 
QWi_1)* Fw] otherwise 


其 中 7 是 一 个 阐 值 ， 一 般 在 8-10 左右 ， 明 数 t() 表示 经 过 古 德 - 图 灵 
佑 计 后 的 相对 频 度 ， 而 


1— 2 Pwilwi-1) 
wi seen 


QWi_1) = (3.16 ) 


DF wi) 


WI! unseen 


这 样 可 以 保证 等 式 (3.14 ) 成 立 。 


这 种 平滑 的 方法 ， 最 早 由 前 IBM 科学 家 卡 区 (SS. M. Katz) 提出 ， 故 称 
为 卡 茨 退 避 法 (Katz backoff ) 。 类 似 地 ， 对 于 三 元 模型 ， 概 率 估 计 的 
公式 如 下 : 


P(wWi|Wi_2, Wi_1) 


f WilWi_2, Wi-1) if #(Wi 2 Wi Wi) 之 了 
= 4 fwWilWi_2, Wi_1) if 0 < #(CWi_2,Wi_1Wi) <T (3.17) 
QWwi_2, Wi_1) * Pwilwi_1) otherwise 


对 于 一 般 情况 的 NN 元 模型 概率 估计 公式 ， 以 此 类 推 。 
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内 仇 (Herman Ney ) 等 人 在 此 基础 上 优化 了 Katz backoff， 原 理 大 同 
小 异 ， 就 不 袭 述 了 ， 有 兴趣 的 读者 可 以 读 参 考 文献 [3.2]。 


为 一 元 组 (Wi) 出 现 的 次 数 平均 比 二 元 组 (wi_i,wi) 出 现 的 次 数 要 高 很 
多 ， 根 据 大 数 定 理 ， 它 的 相对 频 度 更 接近 概率 分 布 。 类 似 地 ， 二 元 组 平 
均 出 现 的 次 数 比 三 元 组 要 高 ， 二 元 组 的 相对 频率 比 三 元 组 更 接近 概率 分 
布 。 同 时 ， 低 阶 模型 的 零 概率 问题 也 要 比 高 阶 模型 轻微 点 。 因 此 ， 用 
低 阶 语言 模型 和 高 阶 模型 进行 线性 插值 来 达到 平滑 的 目的 ， 也 是 过 
去 行业 使 用 的 一 种 方法 ， 这 种 方法 称 为 删除 差 值 (Deleted Inter- 
polation ) ， 如 下 面 的 公式 。 该 公式 中 的 三 个 4 均 为 正 数 而 且 和 为 1。 线 
性 插值 的 效果 略 低 于 卡 茨 退 避 法 (Backoff ) ， 故 现在 已 经 较 少 使 用 了 。 


P(wi|wi-z, Wi_1) 
= AWiz, Wi * fF Wi Wiz, Wi-1) 


十 MACwi- : f wi]Wwi_1) + Af (Wi) ( 3.18) 


2.3 ”说 料 的 选取 问题 


模型 训练 中 另 一 个 重要 的 问题 就 是 训练 数据 ， 或 者 说 语料库 的 选取 。 如 
果 训 练 语 料 和 模型 应 用 的 领域 相 脱 节 , 那么 模型 的 效果 通常 要 大 打折 扣 。 


比如 对 于 建立 一 个 语言 模型 ， 如 果 应 用 是 网 页 搜索 ， 它 的 训练 数据 就 应 
该 是 杂乱 的 网 页 数据 和 用 户 输入 的 搜索 串 ， 而 不 是 传统 的 、 规 范 的 新 闻 
稿 ， 即 使 前 者 夹杂 着 噪音 和 错误 。 


这 里 有 一 个 很 好 的 例子 ， 来 自 于 腾讯 搜索 部 门 。 最 早 的 语言 模型 是 使 用 
《人 民 上 日报》 的 语 料 训练 的 ， 因 为 开发 者 认为 这 些 语 料 干净 、 无 噪音 。 
但 是 实际 的 效果 就 比较 差 ， 经 常 出 现 搜索 串 和 网 页 不 匹配 的 例子 。 后 来 
改 用 网 页 的 数据 ， 尽 管 它 们 有 很 多 的 噪音 ， 但 是 因为 训练 数据 和 应 用 一 
致 ， 搜 索 质 量 反 而 好 。 


训练 数据 通常 是 越 多 越 好 。 虽 然 通 过 上 节 介 绍 的 平滑 过 小 的 方法 可 以 解 
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决 零 概率 和 很 小 概 罕 的 问题 ,但 是 毕竟 在 数据 量 多 的 时 候 概 率 模型 的 参 
数 可 以 估计 得 比较 准确 。 高 阶 的 模型 因为 参数 多 ， 需 要 的 训练 数据 也 相 
应 会 多 很 多 。 遗 憾 的 是 ， 并 非 所 有 的 应 用 都 能 得 到 足够 的 训练 数据 ， 比 
如 说 机 融 翻 译 的 双语 语 料 就 非常 少 ， 在 这 种 情况 下 片面 追求 高 阶 的 大 模 
型 就 变 得 一 点 意义 也 没有 了 。 


在 训练 数据 和 应 用 数据 一 臻 并且 训 练 量 足 够 大 的 情况 下 ， 训 练 语 料 的 品 
音 高 低 也 会 对 模型 的 效果 产生 一 定 的 影响 ， 因 此 ， 在 训练 以 前 有 时 需 
要 对 训练 数据 进行 预 处 理 。 一 般 情 况 下 ， 少 量 的 ( 没有 模式 的 ) 随机 
噪音 清除 起 来 成 本 非常 高 ， 通 常 就 不 做 处 理 了 。 但 是 对 于 能 找到 模式 
(Pattern ) 的 、 量 比较 大 的 噪音 还 是 需要 进行 过 滤 的 ， 而 且 它 们 也 比 
较 容易 处 理 ， 比 如 网 页 文本 中 大 量 的 制 表 符 。 因 此 ， 在 成 本 不 高 的 情况 
下 ,过滤 训 练 数据 还 是 需要 做 的 。 


3 小 结 


统计 语言 模型 在 形式 上 非常 简单 ， 任 何人 都 很 容易 理解 。 但 是 里 面 的 学 
问 却 可 以 很 深 ， 一 个 专家 可 以 在 这 方面 研究 很 多 年 ， 比 如 我 们 在 延伸 阅 
读 中 提 到 的 那些 问题 。 数 学 的 魅力 就 在 于 将 复杂 的 问题 简单 化 。 
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第 4 全 谈 谈 中 文 分 词 


1 中 文 分 词 方法 的 演变 


在 第 3 章 中 我 们 谈 到 可 以 利用 统计 语言 模型 进行 自然 语言 处 理 ， 而 这 些 
语言 模型 是 建立 在 词 的 基础 上 的 ， 因 为 词 是 表达 语义 的 最 小 单位 。 对 于 
西方 拼音 语言 来 讲 ， 词 之 间 有 明确 的 分 界 符 ( Delimit ) ,统计 和 使 用 语 
言 模型 非常 直接 。 而 对 于 中 、 日 、 幕 、 泰 等 语言 ， 词 之 间 没 有 明确 的 分 
界 符 ( 韩语 名 词 短 语 和 动词 之 间 有 分 界 符 , 但 是 短语 内 没有 ) 。 因 此 ， 
首先 需要 对 句子 进行 分 记 ， 才 能 做 进一步 的 自然 语言 处 理 。 


者 分 词 的 输入 是 一 串 妆 子 连 着 层 毛 的 汉字 ， 例 如 一 个 句子 : 中 国航 天 官 
员 应 邀 到 美国 与 太空 总 署 官员 开会 。 而 分 词 的 输出 是 用 分 界 符 ， 比 如 用 
斜 线 或 者 竖 线 分 割 的 一 串 词 : 中 国 /航天 /官员 /应邀 /到 /美国 /与 
/ 太空 / 总 省 / 官员 / 开会 。 


最 容易 想到 的 分 词 方法 ,也 是 最 简单 的 办 法 ,就 是 查 字 上 典 。 这 种 方法 最 早 
是 由 北京 航天 航空 大 学 的 梁 南 元 教授 提出 的 。“ 查 字典 ”的 办 法 ， 其实 就 
是 把 一 个 句子 从 左 向 右 扫 描 一 遍 ， 遇 到 字典 里 有 的 词 就 标识 出 来 ,过 
到 复合 词 ( 比如 “上 海 大 学 ” ) 就 找 最 长 的 词 匹 配 ， 遇 到 不 认识 的 字 串 
怠 分 割 成 单字 词 ， 于 是 简单 的 分 词 就 完成 了 。 这 种 简单 的 分 词 方法 完全 
能 处 理 上 面 例 子 中 的 句子 。 当 我 们 从 左 到 右 扫 描 时 , 先 遇 到 “中 ”这 个 字 ， 
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它 本 喘 是 一 个 单字 词 , 我 们 可 以 在 这 里 做 一 个 切割 , 但 是 ， 当 我 们 再 遇 到 
“ 国 ” 和 学 时 ,发现 它 可 以 和 前 面 的 “中 ” 字 组 成 一 个 更 长 的 词 ， 因此, 我 
们 就 将 分 割 点 放 在 “中 国 ” 的 后 面 。 接 下 来 ,我 们 发 现 “ 中 国 ” 不 会 和 
后 面 的 字 组 成 更 长 的 词 ， 这 个 分 割 点 就 最 终 确定 了 。 


这 个 最 简单 的 方法 可 以 解决 七 八成 以 上 的 分 词 问 题 ， 应 该 讲 它 在 复杂 性 
(成 本 ) 不 高 的 前 提 下 ,取得 了 还 算 满 意 的 效果 。 但 是 , 它 毕 况 太 简单 ， 
遇 到 稍微 复杂 一 点 的 问题 就 无 能 为 力 了 。20 世纪 80 年 代 ， 险 尔 滨 工业 
大 学 的 王 晓 龙 博士 把 查 字典 的 方法 理论 化 , 发 展 成 最 少 词 数 的 分 词 理 论 ， 
即 一 句 话 应 该 分 成 数量 最 少 的 词 串 。 这 种 方法 一 个 明显 的 不 足 是 当 遇 到 
有 二 义 性 (有 双重 理解 意思 ) 的 分 割 时 就 无 能 为 力 了 。 比 如 ， 对 短语 “发 
展 中 国家 ”， 正确 的 分 割 是 “发 展 ~ 中 - 国家 ”， 而 从 左 同 右 查 字典 的 
办 法 会 将 它 分 割 成 “发 展 - 中 国 - 家 ”， 显然 是 错 了 。 男 外 ， 并 非 所 有 
的 最 长 匹配 都 一 定 是 正确 的 。 比 如 “上 海 大 学 城 书店 ”的 正确 分 词 应 该 
是 “上 海 - 大 学 城 -~ 书店 ”， 而 不 是 “上 海 大 学 一 城 -书店 ”，“ 北 
京 大 学 生 ” 的 正确 分 词 是 “北京 ~ 大 学 生 ”， 而 不 是 “北京 大 学 - 生 ”。 


我 们 在 第 一 章 介 绍 过 ,语言 中 的 疏 义 性 伴随 着 语 言 的 发 展 ， 困 扰 了 学 老 
们 上 千年 。 在 中 国 古 代 ， 断 名 和 说 文 解 字 从 根本 上 讲 , 就 是 消除 歧义 性 ， 
而 不 同学 者 之 间 的 看 法 也 显然 不 相同 。 各 种 春秋 的 正义 或 者 对 论语 的 注 
释 ， 就 是 各 家 按照 自己 的 理解 消除 歧义 性 。 分 词 的 二 义 性 是 倩 言 歧 义 性 
的 一 部 分 。20 世纪 90 年 代 以 前 ， 海 内 外 不 少 学 者 试图 用 一 些 文法 规则 
来 解决 分 词 的 二 义 性 问题 ， 都 不 是 很 成 功 。 当 然 也 有 一 些 学 者 开始 注意 
到 统计 信息 的 作用 ,但 是 并 没有 找到 有 完善 理论 基础 的 正确 方法 。1990 
年 前 后 ， 当 时 在 清华 大 学 电子 工程 系 工作 的 郭 进 博士 用 统计 语言 模型 成 
功 解决 了 分 词 二 义 性 问题 ， 将 汉语 分 词 的 错误 率 降 低 了 一 个 数量 级 。 上 上 
面 举 的 二 义 性 的 例子 用 统计 语言 模型 都 可 以 解决 。 


郭 进 是 中 国 大 陆 自觉 地 用 统计 语言 模型 方法 进行 自然 语言 处 理 的 第 一 人 ， 
并 且 获 得 了 成 功 。 这 里 面 除了 他 比较 努力 以 外 ， 他 特殊 的 经 历 也 起 了 很 
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大 作用 。 他 和 我 一 样 ， 昌 然 是 计算 机 专业 的 博士 ， 但 是 却 在 以 通信 为 主 
的 科 系 工作 ， 他 周围 的 同事 都 是 长 期 从 事 通信 研究 的 ， 可 以 说 是 宽 里 尼 
克 的 同行 ， 因此， 他 在 方法 论 上 接受 通信 模型 非常 直接 。 


利用 统计 语言 模型 分 词 的 方法 ， 可 以 用 几 个 数学 公式 简单 概括 如 下 : 假 
定 一 个 句子 S 可 以 有 几 种 分 词 方法 ,为 了 简单 起 见 ， 假定 有 以 下 三 种 : 


Ai, A,, A,, 三 二 , Ar 
B,, B,, B,, 六 Bn 
0, C2, [3， Cn, 


其 中 ，41, 42.…B1, Bz,.…,C1, C2… 等 等 都 是 汉语 的 词 ， 上 述 各 种 分 词 结果 可 
能 产生 不 同 数量 的 词 串 ， 因 为 我 用 了 kk,m,n 三 个 不 同 的 下 标 表 示人 句子 在 
不 同 的 分 词 时 词 的 数目 。 那 么 最 好 的 一 种 分 词 方法 应 该 保证 分 完 词 后 这 
个 句子 出 现 的 概率 最 大 。 也 就 是 说 ， 如 果 A1,42, 43,…,hx 是 最 好 的 分 法 ， 
那么 其 概率 满足 


P(Ai, Az, As,…, Ax) > P(B',, Bz,*…, Bm) 
并 且 
P(Ai, Az, 43 ,Ax) > P(C1, Cz Cn 


因此 ， 只 要 利用 上 一 章 提 到 的 统计 语言 模型 计算 出 每 种 分 词 后 甸子 出 现 
的 概率 ， 并 找 出 其 中 概率 最 大 的 ， 就 能 够 找到 最 好 的 分 词 方 法 。 


当然 ， 这 里 面 有 一 个 实现 的 技巧 。 如 果 穷 举 所 有 可 能 的 分 词 方法 并 计算 
出 每 种 可 能 性 下 句子 的 概率 ， 那 么 计算 量 是 相当 大 的 。 因 此 ， 可 以 把 它 
看 成 是 一 个 动态 规划 (Dynamic Programming) 的 问题 ， 并 利用 维特 比 
( Viterbi ) 算 法 快速 地 找到 最 佳 分 词 。( 我们 在 后 面 的 章节 会 介绍 该 算法 。) 
上 述 过 程 可 以 用 下 图 来 描述 : 
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4.1 分 词 器 示意 图 


在 郭 进 博士 之 后 ， 海 内 外 不 少 学 者 利用 统计 的 方法 ,进一步 完善 了 中 文 
分 词 。 其 中 值得 一 提 的 是 清华 大 学 孙 戊 松 教授 和 香港 科技 大 学 吴 德 咒 教 
授 的 工作 〈 见 参考 文献 ) 。 孙 度 松 教授 的 贡献 主要 在 于 解决 没有 词典 的 
情况 下 的 分 词 问题 ， 而 吴 德 凯 数 授 是 较 早 将 中 文 分 词 方法 用 于 类 文 词 组 
的 分 割 ， 并且 将 英文 词组 和 中 文 词 在 机 融 翻 译 时 对 应 起 来 。 


需要 指出 的 是 , 语言 学 家 对 词语 的 定义 不 完全 相同 。 比 如 说 “北京 大 学 ”， 
有 人 认为 是 一 个 词 ， 而 有 人 认为 该 分 成 两 个 词 。 一 个 折 中 的 解决 办 法 是 
在 分 词 的 同时 ， 找 到 复合 词 的 檬 套 绪 构 。 在 上 面 的 例子 中 ， 如 果 一 句 话 
包含 “北京 大 学 ”四 个 字 ， 那 么 先 把 它 当 成 一 个 四 字 词 ， 然 后 再 进一步 
找 出 细 分 词 “ 北 京 ” 和 “大 学 ”。 这 种 方法 最 早 是 郭 进 在 Computational 
Linguistics (《 计 算 机 语言 学 》) 洒 志 上 发 表 的 ， 此 后 不 少 系 统 都 采用 这 
种 方法 。 


一 般 来 讲 ， 根 据 不 同 应 用 ， 汉 语 分 词 的 颗粒 度 大 小 应 该 不 同 。 比 如 ,在 
机 器 翻译 中 ,颗粒 度 应 该 大 一 些 ,， “北京 大 学 ” 训 不 能 外 分 成 两 个 词 。 
而 在 语音 识别 中 ，“ 北 京 大 学 ”一 般 是 被 分 成 两 个 词 。 因 此 ,不 同 的 应 
用 应 该 有 不 同 的 分 词 系 统 。Google 早期 由 于 工程 师 少 , 没有 精力 开发 ， 
只 能 直接 使 用 Basis Technology 公司 的 通用 分 词 器 ,分 词 结果 没有 针对 
搜索 进行 优化 。 因 此 , 后 来 Google 有 两 位 工程 师 葛 显 平 博士 和 朱 安 博士 ， 
专门 为 搜索 设计 和 实现 了 自己 的 分 词 系 统 ， 以 适应 搜索 特殊 的 需求 。 


在 不 少 人 看 来 ,分词 技术 只 是 针对 亚洲 语言 的 ， 而 罗马 体系 的 拼音 语言 
没有 这 个 问题 ， 其 实 不 然 。 也 许 大 家 想不到 ， 中 文 分 词 的 方法 也 被 应 用 
到 英语 处 理 ， 主 要 是 手写 体 识 别 中 。 因 为 在 识别 手写 体 时 ， 单 词 之 间 的 
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空格 就 不 很 清楚 了 。 中 文 分 词 方法 可 以 帮助 判别 英语 单词 的 边界 。 


其 实 ， 语 言 处 理 的 许多 数学 方法 是 通用 的 ， 和 具体 的 语言 无 关 。 在 
Google 内 部 ,我 们 在 设计 语言 处 理 的 算法 时 ， 都 会 考虑 它 是 否 能 很 容易 
地 运用 于 各 种 自然 语言 。 这 样 才 能 有 效 地 支持 上 百 种 语言 的 搜索 。 


最 后 ， 需 要 指出 的 是 任何 方法 都 有 它 的 局 限 性 ， 昌 然 利 用 统计 语言 模型 
进行 分 词 , 可 以 取得 比 人 工 更 好 的 结果 ,但 是 也 不 可 能 做 到 百分之百 准确 。 
因为 统计 语言 模型 很 大 程度 上 是 依照 “大 众 的 想法 ”， 或 者 “多 数 名 子 
的 用 法 ”, 而 在 特定 情况 下 可 能 是 错 的 。 男 外 , 有 些 人 为 创造 出 的 “两 难 ” 
的 句子 ， 比 如 对 联 “ 此 地 安 能 居住 ， 其 人 好 不 悲伤 ” ， 使 用 什么 方法 也 
无 法 消除 二 义 性 。 好 在 真实 文本 中 ， 这 些 情 况 几 乎 不 会 发 生 。 


2 延伸 阅读 : 工程 上 的 细节 问题 


2.1 分 词 的 一 致 性 


如 何 衡量 分 词 结果 的 对 与 错 ， 好 与 坏 看 似 容易 ， 其 实 不 是 那么 简单 。 说 
它 看 似 容易 ， 是 因为 只 要 对 计算 机 分 词 的 结果 和 人 工分 词 的 结果 进行 比 
较 就 可 以 了 。 说 它 不 是 那么 简单 ， 是 因为 不 同 的 人 对 同一 个 句子 可 能 有 
不 同 的 分 词 方法 。 比 如 有 的 人 认为 “清华 大 学 ”应 该 是 一 个 词 ， 有 的 人 
却 认为 “清华 大 学 ”是 一 个 复合 词 ， 应 该 分 成 “清华 - 大 学 ”两 个 单词 。 
应 该 讲 ， 这 两 种 分 法 都 有 道理 ,虽然 语言 学 家 可 能 比较 坚持 茶 一 种 是 正 
确 的 。 在 不 同 的 应 用 中 ， 经 常 是 一 种 词 的 切 分 比 男 一 种 更 有 效 。 


不 同 的 人 对 词 的 切 分 看 法 上 的 差异 性 远 比 我 们 想象 的 要 大 得 多 。1994 年 ， 
我 和 IBM 的 研究 人 员 人 合作， 对 此 进行 了 研究 。IBM 提供 了 100 个 有 代表 
性 的 中 文 整 句 ， 我 组 织 30 名 清华 大 学 二 年 级 的 本 科 生 独立 地 对 它们 进行 
分 词 。 实 验 前 ， 为 了 保证 大 家 对 词 的 看 法 基本 一 致 ， 我 们 对 30 名 学 生 进 
行 了 半 个 小 时 的 培训 。 实 验 结果 表明 ， 这 30 名 数 育 水 平 相当 的 大 学 生 分 
词 的 一 致 性 只 有 85%-90%。 


1 

它 的 两 种 分 词 方法 
“此 地 - 安 能 -居住 ， 
其 人 -好 不 -悲伤 ” 
和 “此 地 安 - 能 居 
住 ， 其 人 好 - 不 惩 
伤 意思 完全 相反 。 
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在 将 统计 语言 模型 用 于 分 词 以 前 ， 分 词 的 准确 率 通常 较 低 ， 可 以 提升 的 
空间 非常 大 。 不 同 的 人 切 分 的 区 别 虽 然 会 影响 分 词 评测 的 准确 性 ， 但 是 
好 的 方法 和 坏 的 方法 还 是 可 以 根据 分 词 结果 与 人 工 切 分 的 比较 来 衡量 的 。 


当 统 计 语言 模型 被 广泛 应 用 后 , 不 同 的 分 词 器 产生 的 结果 的 差异 要 远 远 小 
于 不 同人 之 间 看 法 的 差异 ， 这 时 简单 依靠 与 人 工分 词 的 结果 比较 来 衡量 
分 词 需 的 准确 性 就 很 难 ， 甚 至 是 毫 无 意义 的 了 。 很 难 讲 一 个 准确 率 在 97 
% 的 分 词 副 就 一 定 比 男 一 个 准确 率 为 95% 的 要 好 ， 因 为 这 要 看 它们 选用 
的 所 谓 正 确 的 人 工分 词 的 数据 是 如 何 得 来 的 。 我 们 甚至 只 能 讲 某 个 分 词 
船 和 玉 一 个 分 词 器 相 比 ， 与 人 工分 词 结果 的 吻合 度 稍微 而 一 点 而 已 。 所 
从 的 是 , 中 文 分 词 现 在 是 一 个 已 经 解决 了 的 问题 , 提高 的 空间 微乎其微 了 。 
只 要 采用 统计 语言 模型 ， 效 果 都 差 不 到 哪里 去 。 


2.2 词 的 颗粒 度 和 层次 


人 工分 词 产生 不 一 致 性 的 原因 主要 在 于 人 们 对 词 的 颗粒 度 的 认识 问题 。 
在 汉 请 里 ， 词 是 表达 意思 最 基本 的 单位 ， 再 小 意思 就 变 了 。 这 就 如 同 在 
化 学 里 分 子 是 保持 化 学 性 质 的 最 小 单位 一 样 。 再 往 下 分 到 原子 ， 化 学 的 
特性 就 变 了 。 在 这 一 点 上 所 有 的 语言 学 家 痢 设 有 异议 。 因 此 ， 对 于 “ 贾 
里 尼克 ”这 个 词 , 所 有 的 语言 学 家 都 会 认为 它 不 可 折 分 , 如 果 拆 成 四 个 字 ， 
和 原来 的 人 名 就 没有 联系 了 。 但 是 对 于 “清华 大 学 ” ,大 家 的 看 法 就 不 同 了 ， 
有 些 人 认为 它 是 一 个 整体 ， 表 示 北 京 西 郊 一 所 特定 的 大 学 ， 也 有 人 认为 
它 是 一 个 词组 , 或 者 说 是 一 个 名 词 短 语 ， “清华 ”是 修饰 “大 学 ”的 定语 ， 
因此 需要 拆 开 ， 不 折 开 就 无 法 体现 它 里 面 的 修饰 关系 。 这 就 涉及 到 对 词 
的 颗粒 度 的 理解 了 。 


在 这 里 不 去 强调 谁 的 观点 对 ， 而 是 要 指出 在 不 同 的 应 用 中 ， 会 有 一 种 颗 
粒度 比 另 一 种 更 好 的 情况 。 比 如 在 机 器 翻译 中 ， 一 般 来 讲 ， 颗 粒度 大 翻 
译 效果 好 。 比 如 “联想 公司 ”作为 一 个 整体 ， 很 容易 找到 它 对 应 的 英语 
翻译 Lenovo ， 如 果 分 词 时 将 它们 分 开 ， 很 有 可 能 翻译 失败 ， 因 为 联想 在 
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汉语 中 , 首先 是 “根据 相关 联 的 场景 想象 ”的 意思 。 但 是 在 另外 一 些 应 用 ， 
比如 网 页 搜索 中 ， 小 的 颗粒 床 比 大 的 颗粒 度 要 好 。 比 如 清华 大 学 这 四 个 
字 如 果 作 为 一 个 词 ， 在 对 网 页 分 词 后 ， 它 是 一 个 整体 了 ， 当 用 户 查询 “ 清 
华 ” 时 ， 是 找 不 到 清华 大 学 的 ， 这 绝对 是 有 问题 的 。 


昌 然 可 以 对 不 同 的 应 用 构造 不 同 的 分 词 器 ,但 是 这 样 做 不 仅 非 常 浪费 , 而 
且 也 不 必要 。 更 好 的 方法 是 让 一 个 分 词 器 同时 支持 不 同 层 次 的 词 的 切 分 。 
也 就 是 说 , 上 面 的 “清华 大 学 ” 既 可 以 被 看 成 一 个 整体 , 也 可 以 被 切 分 开 ， 
然后 由 不 同 的 应 用 自行 决定 采用 哪个 颗粒 度 的 切 分 。 这 在 原理 和 实现 上 
并 不 是 很 麻烦 ， 简 单 介 绍 如 下 。 


首先 需要 一 个 基本 的 词 表 和 一 个 复合 词 的 词 表 。 基本 词 表 包括 像 “清华 ”、 

“大 学 ”、“ 买 里 尼 死 ” 这样 无 法 再 分 的 词 。 复 合 词 表 包含 复合 词 以 及 
它们 由 哪些 基本 词 构成 , 包括 像 “清华 大 学 : 清华 - 大 学 ”, “搜索 引擎 : 
搜索 - 引擎 ”。 


接 下 来 需要 根据 基本 词 表 和 复合 词 表 各 建立 一 个 语言 模型 ， 比 如 LI 和 12。 


然后 根据 基本 词 表 和 语言 模型 L1 对 句子 进行 分 词 ， 就 得 到 了 小 颗粒 度 的 

分 词 结果 。 如 果 对 应 到 图 4.1 的 分 词 器 中 ， 这 里 面 的 字 串 是 输入 ， 词 串 是 
出 。 顺 便 讲 一 句 ， 基 本 词 比 较 稳 定 ， 分词 方法 又 是 解决 了 的 ， 因 此 小 

颗粒 度 的 分 词 除 了 偶尔 增加 点 新 词 外 ， 没 有 什么 需要 研究 和 做 的 工作 。 


最 后 ， 在 此 基础 上 ， 再 用 复合 词 表 和 语言 模型 L2 进行 第 二 次 分 词 ， 对 于 
图 4.1 的 分 词 器 ， 这 时 输入 是 基本 词 串 , 输 出 是 复合 词 串 ， 词 表 和 语言 模 
型 两 个 数据 库 改变 了 ， 但 是 分 词 器 ( 程序 ) 本 身 和 前 面 的 完全 相同 。 


介绍 了 分 词 的 层次 概念 后 ， 我 们 可 以 更 进一步 讨论 分 词 器 准确 性 的 问题 
了 。 分 词 的 不 一 致 性 可 以 分 为 错误 和 颗粒 度 不 一 致 两 种 ,错误 又 分 成 两 类 ， 
一 类 是 越界 型 错误 ， 比 如 把 “北京 大 学 生 ” 分 成 “北京 大 学 - 生 ”。 田 
一 类 是 有 覆盖 型 错误 ， 比 如 把 “ 贾 里 尼 元 ” 拆 成 了 四 个 字 。 这 些 是 明显 的 
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第 误 , 是 改进 分 词 器 时 要 尽 可 能 消除 的 。 接 下 来 是 颗粒 度 的 不 一 致 性 ， 
人 工分 词 的 不 一 致 性 大 多 属于 此 类 。 这 一 类 不 一 致 性 在 度量 分 词 器 的 好 
坏 时 , 可 以 不 作为 错误 ,以 免 不 同 人 看 法 的 不 同 左右 了 对 分 词 器 的 度量 。 
对 于 某 些 应 用 ,需要 尽 可 能 地 找到 各 种 复合 词 ， 而 不 是 将 其 切 分 。 因 此 ， 
需要 花 一 些 功 夫 做 数据 挖掘 的 工作 ， 不 断 完善 复合 词 的 词典 ( 它 的 增长 
速度 较 快 ) ， 这 是 近年 来 中 文 分 词 主要 花 精 力 的 地 方 。 


3 小 结 


中 文 分 词 以 统计 语言 模型 为 基础 ， 经 过 儿 十 年 的 发 展 和 完善 ， 今 天 基本 
上 可 以 看 做 是 一 个 已 经 解决 的 问题 。 


当然 不 同 的 人 做 的 分 词 器 有 好 有 坏 ， 这 里 面 的 差别 主要 在 于 数据 的 使 用 
和 工程 实现 的 精度 。 
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第 5 音 隐 合 马尔 可 夫 模 型 


隐 仿 马尔 可 去 模型 是 一 个 并 不 复杂 的 数学 模型 ， 到 目前 为 止 ， 它 一 直 被 认 
为 是 解决 大 多 数 自然 语言 处 理 问 题 最 为 快速 、 有 效 的 方法 。 它 成 功 地 解决 
了 复杂 的 语音 识别 、 机 器 翻译 等 问题 。 当 我 们 看 完 这 些 复 森 的 问题 是 如 何 
通过 简单 的 模型 描述 和 人 解决 时 ， 会 不 得 不 由 囊 地 感叹 数学 模型 之 妙 。 


1 通信 模型 


我 们 在 第 一 、 二 章 中 介绍 了 ， 人 类 信息 交流 的 发 展 贯 穿 了 人 类 的 进化 和 
文明 的 全 过 程 。 而 自然 语言 是 人 类 交流 信息 的 工具 ,语言 和 通信 的 联系 
是 天 然 的 。 通 信 的 本 质 就 是 一 个 编 解码 和 传输 的 过 程 。 但 是 目 然 语 言 处 
理 早期 的 努力 都 集中 在 语法 .语义 和 知识 表述 上 , 离 通 信 的 原理 越 走 越 远 ， 
而 这 样 离 答案 也 就 越 来 越 远 。 当 自然 语言 处 理 的 问题 回归 到 通信 系统 中 
的 解码 问题 时 ， 很 多 难题 都 迎刃而解 了 。 


让 我 们 先 来 看 一 个 典型 的 通信 系统 : 当 一 个 人 《或 者 机 器 ) 发 送信 息 时 ， 
他 需要 采用 一 种 能 在 媒体 中 ( 比如 空气 、 电 线 ) 传播 的 信号 ， 比 如 语音 
或 者 电话 线 的 调制 信号 ， 这 个 过 程 是 广义 上 的 编码 。 然 后 通过 媒体 传播 
到 接收 方 ， 这 个 过 程 是 信道 传输 。 在 接收 方 ， 收 昕 的 人 (或 者 机 紫 ) 根 
据 事先 约定 好 的 方法 ， 将 这 些 信号 还 原 成 发 送 者 的 信息 ， 这 个 过 程 是 广 
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了 

雅 格 布 森 通 信 六 个 
要 素 是 : 发 送 者 ( 信 
息 源 ) ， 信 道 ， 接 
收 者 ， 信 息 ， 上 下 
文 和 编码 。 


义 上 的 解码 。 下 图 表示 了 一 个 典型 的 通信 系统 , 它 包 含 雅 格 布 森 (Roman 
Jakobson ) 提出 的 通信 的 六 个 要 素 。 


接收 者 





发 送 者 信 通 


图 511 通信 模型 


其 中 Su 52,53,… 表 示 信 息 源 发 出 的 信号 ， 比 如 手机 发 送 的 信号 。01, 02, 03,*… 
是 接收 器 (比如 另 一 部 手机 ) 接收 到 的 信和 号。 通信 中 的 解码 就 是 根据 接 
收 到 的 信号 01, O02, 03, … 还 原 出 发 送 的 信号 31，32，353， 0 


那么 这 与 自然 语言 处 理 的 工作 ， 比 如 语音 识别 ,又 有 什么 直接 的 关系 呢 ? 
不 妨 换 一 个 角度 来 考虑 这 个 问题 。 所 谓语 音 识别 ， 就 是 听话 的 人 去 猜测 
说 话 者 要 表达 的 意思 。 这 其 实 就 像 通 信 中 , 根据 接收 端 收 到 的 信号 去 分 析 、 
理解 、 还 原 发 送 问 传 送 过 来 的 信息 。 我 们 平时 在 说 话 时 ， 脑 子 就 是 一 个 
信息 源 。 我 们 的 喉 唉 ( 声带) 、 空 气 ， 就 是 如 电线 和 光缆 般 的 信道 。 听 
众 的 耳 东 就 是 接收 器 ， 而 听 到 的 声音 就 是 传送 过 来 的 信和 导 。 根 据 声 学 信 
号 来 推测 说 话 者 的 意思 ， 就 是 语音 识别 。 如 果 接 收 端 是 一 台 计 算 机 而 不 
是 人 ,那么 计算 机 要 做 的 就 是 语音 的 自动 识别 。 


同样 ， 很 多 自然 语言 处 理 的 应 用 也 可 以 这 样 理解 。 在 从 汉语 到 英语 的 翻 
译 中 ,说 话 者 讲 的 是 汉语 ， 但 是 信道 传播 编码 的 方式 是 英语 ， 如 果 利 用 
计算 机 , 根据 接收 到 的 英语 信息 , 推测 说 话 者 的 汉语 意思 , 就 是 机 器 翻译 。 
同样 ， 如 果 要 根据 带 有 拼写 错误 的 语句 推测 说 话 者 想 表 达 的 正确 意思 , 那 
就 是 自动 纠 错 。 这 样 ， 几 乎 所 有 的 自然 语言 处 理 问题 都 可 以 等 价 成 通信 
的 解码 问题 。 


在 通信 中 3 如 何 根 据 接 收 端 的 观测 信号 O01, 02, O03,'** 来 推测 信号 源 发 送 的 
信息 51,5z,53,… 呢 ? 只 需要 从 所 有 的 源 信息 中 找到 最 可 能 产生 出 观测 信 
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号 的 那 一 个 信息 。 用 概率 论 的 语言 来 描述 ， 就 是 在 已 知 01,02,03,… 的 悄 
况 下 ， 求 得 令 条 件 概率 


P(s1， S32 33， |o， 02, 03,""° ) 达 到 最 大 值 的 那个 信息 串 S1 32 33,"""， 妈 


S14) Cp PE 一 Arg Max Pls, SI S31""" [9,, O02, 03，… ) ( 5.1 ) 


Ql s1,52,53."- 


其 中 Arg 是 参数 Argument 的 缩写 ， 表 示 能 获得 最 大 值 的 那个 信息 串 。 
当然 ， 上 面 的 概率 不 容易 直接 求 出 ， 不 过 可 以 间接 地 计算 它 。 利 用 贝 叶 
斯 公式 可 以 把 上 述 公 式 等 价 变换 成 
Pl(01, 02,03,°° |S1; 52, 53,°"° ) * PlS1, S52, 53,'"*) 
Pv,037) (5.2) 
其 中 P(ou oz oz…|su Sz,53,… ) 表示 信息 51,52,33,… 在 传输 后 变 成 接收 
的 信号 01,02,03,… 的 可 能 性 ; 而 P(s1 52,53,… ) 表 示 51,52,S3,… 本 上 刁 是 一 
个 在 接收 端 合乎 情理 的 信号 ( 比如 一 个 合乎 情理 的 句子 ) 的 可 能 性 ; 最 
后 P{01,02,03,…) 表示 在 发 送 端 ( 比如 说 话 的 人 ) 产生 信息 91; 092,03,… 
的 可 能 性 。 


大 家 读 到 这 里 也 许 会 问 ， 你 现在 是 不 是 把 问题 变 得 更 复 如 了 ， 因 为 公式 
越 写 越 长 了 。 别 着 急 ， 我 们 现在 就 来 简化 这 个 问题 。 首 先 ， 一旦 信息 
ou oz 03 … 产 生 了 ， 它 就 不 会 改变 了 ， 这 时 Plo1,02,03,…) 就 是 一 个 可 
以 忽略 的 常数 。 因 此 ， 上 面 的 公式 可 以 等 价 成 


P(oi,oz, 03 |51, 52, 5S3,°* ) * P(S1, 5S2, 53,°** ) (5,3 ) 


当然 ， 这 里 面 还 有 两 项 ， 虽 然 多 过 (5.1 ) 的 一 项 ,但 是 这 个 公式 完全 可 
以 用 隐 舍 马尔 可 夫 模 型 ( Hidden Markov Model ) 来 估计 。 
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5.2 ”俄罗斯 著名 科学 家 安 德 烈 : 马尔 可 夫 


隐 含 马尔 可 夫 模 型 ( Hidden Markov Model ) 其 实 并 不 是 19 世纪 俄罗斯 
数学 家 马尔 可 夫 ( Andrey Markov ) 发 明 的 , 而 是 美国 数学 家 鲍 姆 ( Leonard 
E. Baum ) 等 人 在 20 世纪 六 七 十 年 代 发 表 的 一 系列 论文 中 提出 的 ， 隐 含 
马尔 可 夫 模 型 的 训练 方法 ( 鲍 姆 - 韦 尔 奇 算法 ) 也 是 以 他 的 名 字 命名 的 。 


要 介绍 隐 含 马尔 可 夫 模型 ， 还 是 要 从 马尔 可 夫 链 说 起 。 到 了 19 世纪 ， 概 
率 论 的 发 展 从 对 ( 相对 静态 的 ) 随机 变量 的 研究 发 展 到 对 随机 变量 的 
时 间 序 列 s1, sz,53,…,se,…， 即 随机 过 程 ( 动态 的 ) 的 研究 。 这 在 哲学 
的 意义 上 ， 是 人 类 认识 的 一 个 飞跃 。 但 是 ， 随 机 过 程 要 比 随 机 变量 复 
杂 得 多 。 首 先 ， 在 任何 一 个 时 刻 t， 对 应 的 状态 st 都 是 随机 的 。 举 一 个 
大 家 熟悉 的 例子 ,我们 可 以 把 51,52z,53,…,St,… 看 成 是 北京 每 天 的 最 高 
气温 ， 这 里 面 每 个 状态 st 都 是 随机 的 。 第 二 ， 任 何 一 个 状态 st 的 取 值 
都 可 能 和 周围 其 他 的 状态 相关 。 回 到 上 面 的 例子 ， 任 何 一 天 的 最 高 气 
温 ， 与 这 段 时 间 以 前 的 最 高 气温 是 相关 的 。 这 样 随机 过 程 就 有 两 个 维 
度 的 不 确定 性 。 马 尔 可 夫 为 了 简化 问题 ， 提 出 了 一 种 简化 的 假设 ， 即 
随机 过 程 中 各 个 状态 st 的 概率 分 布 ， 只 与 它 的 前 一 个 状态 St-1 有 关 ， 即 
p(s |Si, $2, 53,… ,St_1) 三 P(st|s:-1) 。 比 如 ， 对 于 天 气 预 报 ， 硬 性 假定 今 
天 的 气温 只 与 昨天 有 关 而 和 前 天 无 关 。 当 然 这 种 假设 未 必 适 合 所 有 的 应 
用 , 但 是 至 少 对 以 前 很 多 不 好 解决 的 问题 给 出 了 近似 解 。 这 个 假设 后 来 
被 命名 为 马尔 可 夫 假 设 ， 而 符合 这 个 假设 的 随机 过 程 则 称 为 马尔 可 夫 过 
程 ， 也 称 为 马尔 可 夫 链 。 下 网 表示 一 个 离散 的 马尔 可 夫 过 程 。 
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0.4 


i0 os 0 > 


O.7 


5.3 ”马尔 可 夫 链 


在 这 个 马尔 可 夫 链 中 ， 四 个 图 表示 四 个 状态 ， 每 条 边 表示 一 个 可 能 的 状 
态 转 换 ， 边 上 的 权 值 是 转移 概率 。 例 如 ,状态 Mi 到 m2 之 间 只 有 一 条 边 ， 
且 边 上 权 值 为 1.0。 这 表示 从 状态 ma 只 可 能 转换 到 状态 maz ， 转 移 概率 为 
1.0。 从 mz 出 发 的 有 两 条 边 : 到 ms 和 到 ?4 。 其 中 权 值 0.6 表示 : 如 果菜 
个 时 刻 t 的 状态 st 是 mna , 则 下 一 个 时 刻 的 状态 stri = ms 的 概率 ( 可 能 性 ) 
是 60%。 如 果 用 数学 符号 表示 是 P(st+1 = mmalst = m2) = 0.6。 类 似 的 ， 


有 (sr+1 一 malsr 一 7102 ) 二 0.4。 


把 这 个 马尔 可 夫 链 想象 成 一 台 机 器 , 它 随机 地 选择 一 个 状态 作为 初始 状态 ， 
随后 按照 上 述 规 则 随机 选择 后 续 状态 。 这 样 运行 一 段 时 间 工 之 后 ， 就 会 产 
生 一 个 状态 序列 : S51, Sz,53,… 57。 看 到 这 个 序列 的 人 ， 不 难 数 出 某 个 状态 
mi 的 出 现 次 数 #(mi;) ， 以 及 从 mi 转换 到 mj 的 次 数 #(mi,mj) ， 从 而 估计 
出 从 mi 到 mj 的 转移 概率 #(mi, mj)/#(mi)。 每 一 个 状态 只 和 前 面 一 个 有 
关 ， 比 如 从 状态 3 到 状态 4， 不 论 在 此 之 前 是 如 何 进 入 到 状态 3 的 (是 从 
状态 2 进入 ， 还 是 在 状态 3 本 身 转 了 几 个 圈子 ) ， 这 个 概率 都 是 0.3。 


隐 含 马尔 可 夫 模 型 是 上 述 马 尔 可 夫 链 的 一 个 扩展 : 任 一 时 刻 t 的 状态 se 
是 不 可 见 的 。 所 以 观察 者 没 法 通过 观察 到 一 个 状态 序列 St sz, 53,*… ST 
米 推测 转移 概率 等 参数 。 但 是 ， 隐 含 马尔 可 夫 模 型 在 每 个 时 刻 t 会 输出 
一 个 符号 0: ， 而 且 ot 和 5t 相 关 且 仅 和 se 相关。 这 个 被 称 为 独立 输出 假 
设 。 隐 含 马尔 可 去 模型 的 结构 如 下 : 其 中 隐 含 的 状态 51,52,53,… 是 一 个 
典型 的 马尔 可 夫 链 。 鲍 姆 把 这 种 模型 称 为 “ 隐 含 ”马尔 可 夫 模 型 。 
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5.4 ” 隐 含 马尔 可 去 模型 


基于 马尔 可 夫 假 设 和 独立 输出 假设 ,我 们 可 以 计算 出 某 个 特定 的 状态 序 
列 5T1 32) 33) … 产 生出 输出 符号 O01, 02, 03,°"" 的 概率 。 


P(s1， sS2 33 ,O01 02，03， … ) 一 [ [Pstlse_1) ” P(or|sz) { 5.4 ) 
t 


读者 可 能 已 经 看 出 ， 公 式 (5.4 ) 在 形态 上 和 公式 (5.3 ) 非常 相似 。 现 在 
我 们 把 马尔 可 夫 假 设 和 独立 输出 假设 用 于 通信 的 解码 问题 (5.3 ) ， 即 把 


P(01, 02, 03，… | S1, 5S2, S3，…) 一 | 【Poclso) 
[a 


(5.5 ) 
P(s1, 52,53,*… ) = [ | PCselsei) 


代入 (5.3) ， 这 时 正好 得 到 ( 5.4 ) 。 这 样 通信 的 解码 问题 就 可 以 用 隐 含 
马尔 可 夫 模 型 来 解决 了 。 而 很 多 自然 语言 处 理 问题 是 和 通信 的 解码 问题 
等 价 的 ， 因 此 它们 完全 可 以 由 隐 含 马尔 可 夫 模 型 来 解决 。 至 于 如 何 找 出 
上 面 式 子 的 最 大 值 ， 进 而 找 出 要 识别 的 句子 51,52,53,… ， 可 以 利用 维特 
比 算法 ( Viterbi Algorithm ), 这 里 面 的 细节 我 们 会 在 后 面 的 章节 中 介绍 。 


在 公式 (5.3) 中 ， P(s1, 52,S3,… ) 是 语言 模型 ， 我 们 在 前 面 的 一 章 已 经 介 
绍 过 了 。 


P(si, 52, 53,… |01,02,03,… ) 根据 应 用 的 不 同 而 有 不 同 的 名 称 ， 在 语音 识 
别 中 它 外 Q 称 为 “声学 模型 ”( Acoustic Model ) ， 在 机 器 翻译 中 是 “ 翻 
译 模型 "( Translation Model ), 而 在 拼写 校正 中 是 “ 纠 错 模 型 ”( Correction 
Model ) 。 


隐 含 马尔 可 夫 模 型 成 功 的 应 用 最 早 是 语音 识别 。20 世纪 70 年代 ， 当 时 
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IBM 华 生 实验 室 的 资 里 尼克 领导 的 科学 家 人们， 主要 是 刚刚 从 卡 内 基 一 梅 
隆 大 学 毕业 的 贝克 夫妇 (James and Janet Baker ) “， 提 出 用 隐 含 马尔 可 
夫 模 型 来 识别 语音 ， 语 音 识别 的 错误 率 相 比 人 工 智 能 和 模式 匹配 等 方法 ? 

加 李开复 的 师兄 和 师 
降低 了 三 分 之 二 (从 30% 到 10%) 。20 世纪 80 年 代 末 李开复 博士 坚持 。 旭 ， 后 来 共同 创立 
采用 隐 含 马尔 可 夫 模 型 的 框架 ， 成 功 地 开发 了 世界 上 第 一 个 大 词汇 量 连 了 
续 鸽 音 识别 系统 Sphinx。 接 下 来 ， 隐 含 马 尔 可 夫 模 型 陆续 成 功 地 应 用 于 
机 器 翻译 、 拼 写 纠 错 、 手 写 体 识别 、 图 像 处 理 、 基 因 序 列 分 析 等 很 多 IT 


领域 ， 近 20 年 来 ， 它 还 广泛 应 用 于 股票 预测 和 投资 。 


我 最 早 接触 到 隐 舍 马尔 可 夫 模 型 是 20 多 年 前 的 事 。 那 时 在 “随机 过 程 ”( 清 
华 过 去 “臭名 昭著 ”的 一 门 课 ) 里 学 到 这 个 模型 ， 但 当时 实在 想 不 出 它 
有 什么 实际 用 途 。 几 年 后 ， 我 在 清华 跟随 王 作 英 教授 学 习 、 人 研究 语音 识 
别 时 , 他 给 了 我 几 十 篇 文献 。 我 印象 最 深 的 就 是 页 里 尼克 和 李开复 的 文章 ， 
它们 的 核心 思想 就 是 隐 含 马尔 可 夫 模 型 。 复 杂 的 语音 识别 问题 居然 能 如 
此 简单 地 表述 、 解 决 ， 我 由 衷 地 感叹 数学 模型 之 妙 。 


3 延伸 阅读 : 隐 含 马尔 可 夫 模 型 的 训练 
读者 知识 背景 : 概率 论 。 
围绕 着 隐 含 马尔 可 夫 模型 有 三 个 基本 问题 : 


1， 给 定 一 个 模型 ， 如 何 计 算 某 个 特定 的 输出 序列 的 概率 ; 


2， 给 定 一 个 模型 和 茶 个 特定 的 输出 序列 ， 如 何 找到 最 可 能 产生 这 
个 输出 的 状态 序列 ; 


3， 给 定 足 够 量 的 观测 数据 ， 如 何 估 计 隐 含 马尔 可 夫 模 型 的 参数 。 


第 一 个 问题 相对 简单 ， 对 应 的 算法 是 Forward-Backward 算法 ， 在 此 略 
过 ， 有 兴趣 的 读者 可 以 参看 强 里 德里 克 … 村 里 尼克 (Frederick Jelinek ) 


的 Statistical Methods for Speech Recognition ( Language, Speech, and 3 


The MIT Press 


Communication ) 一 书 "。 第 二 个 问题 可 以 用 著名 的 维特 比 算法 解决 ， 我 们 (ianuary16.1998) 
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在 以 后 的 章节 中 会 介绍 ,第 三 个 问题 就 是 我 们 这 一 节 要 讨论 的 模型 训练 问题 。 


在 利用 隐 含 马尔 可 夫 模 型 解决 实际 问题 中 ， 需 要 事先 知道 从 前 一 个 状态 
st 进入 当前 状态 51 的 概率 P(stlst-1) ， 也 称 为 转移 概率 (Transition 
Probability ) ， 和 每 个 状态 se 产生 相应 输出 符号 ot 的 概率 P(orjste) ， 也 称 
为 生成 概率 (Generation Probability ) 。 这 些 概率 被 称 为 隐 含 马尔 可 夫 
模型 的 参数 ， 而 计算 或 者 佑 计 这 些 参 数 的 过 程 称 为 模型 的 训练 。 


我 们 从 条 件 概率 的 定义 出 发 ， 知 道 : 





Pl(or, 
Plol|se) = ee (5.6) 
PlSsr_1, 
Plselse_1) = ee ( 5.7) 


对 于 公式 (5.6) 的 状态 输出 概率 ， 如 果 有 足够 多 人 工 标 记 (Human 
Annotated ) 的 数据 ， 知 道 经 过 状态 St 有 多 少 次 #(5t) ， 每 次 经 过 这 个 状态 时 ， 
分 别 产生 的 输出 oz 是 什么 ， 而 且 分 别 有 多 少 次 #(or st) 就 可 以 用 两 者 的 比值 


#(0r Se) 


Porlsr) ~ -SS (5.8 ) 


直接 算出 (估计 出 ) 模型 的 参数 。 因 为 数据 是 人 工 标注 的 ， 因 此 这 种 方 
法 称 为 有 监督 的 训练 方法 (Supervised Training ) 。 对 于 公式 (5.7 ) 的 
转移 概率 ， 其 实 和 前 面 提 到 的 训练 统计 语言 模型 的 条 件 概率 是 完全 相同 
的 ， 因 此 可 以 依照 统计 语言 模型 的 训练 方法 


#(Wi_1, Wi) 


P(wi|wi-1) ~ #(Cw;_1) (5.9 ) 


直接 得 到 。 有 监督 的 训练 的 前 提 是 需要 大 量 人 工 标 注 的 数据 ,很 遗憾 的 是 ， 
很 多 应 用 都 不 可 能 做 到 这 件 事 ， 比 如 在 语言 识别 中 的 声学 模型 训练 ， 人 
是 无 法 确定 产生 某 个 语音 的 状态 序列 的 ， 因 此 也 就 无 法 标注 训练 模型 的 
数据 。 而 在 男 外 一 些 应 用 中 ,虽然 标注 数据 是 可 行 的 , 但 是 成 本 非常 高 。 
比如 训练 中 英 机 器 翻译 的 模型 ， 筑 要 大 量 中 英 对 照 的 衣料 ， 还 要 把 中 英 
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文 的 词组 一 一 对 应 起 来 ， 这 个 成 本 非常 高 。 因 此 ， 训 练 聊 含 马 尔 可 夫 模 
型 更 实用 的 方式 是 仅仅 通过 大 量 观测 到 的 信号 ou oz 03,… 就 能 推算 模型 
参数 的 Pksc|st-i) 和 P(o|st) 的 方法 , 这 类 方法 称 为 无 监督 的 训练 算法 ， 
其 中 主要 使 用 的 是 鲍 姆 - 韦 尔 奇 算法 ( Baum-Welch Algorithm ) 。 


两 个 不 同 的 隐 含 马尔 可 夫 模 型 可 以 产生 同样 的 输出 信号 ， 因 此 ， 仅 仅 通 
过 观察 到 的 输出 信号 来 倒 推 产生 它 的 隐 含 马尔 可 夫 模 型 可 能 会 得 到 很 多 
个 合适 的 。 但 是 总 会 是 一 个 模型 Mgz 比 为 一 个 Me1 更 有 可 能 产生 观测 到 
的 输出 ， 其 中 2 和 由 是 隐 含 马尔 可 夫 模 型 的 参数 。 鲍 姆 - 韦 尔 奇 算法 就 
是 寻找 这 个 最 可 能 的 模型 Ma。 


在 鲍 姆 - 韦 尔 奇 算法 的 思想 是 这 样 的 : 


首先 找到 一 组 能 够 产生 输出 序列 0 的 模型 参数 。 ( 显然 它们 是 一 定 存在 的 ， 
因为 转移 概率 P 和 输出 概率 8 为 均匀 分 布 时 ， 模 型 可 以 产生 任何 输出 ， 当 
然 包 括 我 们 观察 到 的 输出 0 。 ) 现在 ， 有 了 这 样 一 个 初始 的 模型 ， 我们 称 
为 Meo ， 短 要 在 此 基础 上 找到 一 个 更 好 的 模型 。 假 定 解决 了 第 一 个 问题 和 
第 二 个 问题 ， 不 但 可 以 算出 这 个 模型 产生 0 的 概率 P(0|Meo) ， 而 且 能 够 
找到 这 个 模型 产生 0 的 所 有 可 能 的 路 径 以 及 这 些 路 径 的 概率 。 这 些 可 能 的 
路 径 ， 实 际 上 记录 了 每 个 状态 经 历 的 多 少 次 ， 到 达 了 哪些 状态 ， 输 出 了 哪 
些 符号 ， 因 此 可 以 将 它们 看 做 是 “标注 的 训练 数据 ”， 并且 根据 公式 (5.6) 
和 (5.7 ) 计算 出 一 组 新 的 模型 参数 8: ,从 Meo 到 Me 的 过 程 称 为 一 次 迭代 。 
可 以 证 明 


PLOIMo 1 > P{O|Me0) ( 5.10) 


接 下 来 ， 我们 从 Megi 出 发 ， 可 以 找到 一 个 更 好 的 模型 Mez ， 并 且 不 断 地 找 
下 去 ， 直 到 模型 的 质量 没有 明显 提高 为 止 。 这 就 是 鲍 姆 - 韦 尔 奇 算 法 的 
原理 ,对 于 具体 算法 的 公式 ， 有 兴趣 的 读者 可 以 阅读 参考 文献 [5.2] ， 我 
就 不 青 装 述 了 。 


饱 姆 - 韦 尔 奇 算法 的 每 一 次 迭代 都 是 不 断 地 估计 ( Expectation ) 新 的 模 
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型 参数 , 使 得 输出 的 概率 ( 我们 的 目标 函数 ) 达 到 最 大 化 ( Maximization )， 
因此 这 个 过 程 被 称 为 期 望 值 最 大 化 ( Expectation-Maximization ) ， 简 称 
EM 过 程 。EM 过 程 保 证 算法 一 定 能 收敛 到 一 个 局 部 最 优点 ， 很 遗憾 它 一 
般 不 能 保证 找到 全 局 最 优点 。 因 此 ， 在 一 些 自然 语言 处 理 的 应 用 中 ， 比 
如 词性 标注 ， 这 种 无 监督 的 鲍 姆 - 韦 尔 奇 算法 训练 出 的 模型 比 有 监督 的 
训练 得 到 的 模型 效果 略 差 ， 因 为 前 者 未 必 能 收敛 到 全 局 最 优点 。 但 是 如 
条 目标 函数 是 凸 函 数 〈《 比 如 信息 焙 ) ， 则 只 有 一 个 最 优点 ， 在 这 种 情况 
下 EM 过 程 可 以 找到 最 佳 值 。 


4 小 结 


隐 含 马尔 可 夫 模 型 最 初 应 用 于 通信 和 领域 , 继而 推广 到 话音 和 语言 处 理 中 ， 
成 为 连接 自然 语言 处 理 和 通信 的 桥梁 。 同 时 ， 隐 含 马尔 可 夫 模 型 也 是 机 
天 学 习 主 要 工具 之 一 。 和 几乎 所 有 的 机 器 学 习 的 模型 工具 一 样 ， 它 需要 
一 个 训练 算法 〈 鲍 姆 - 韦 尔 奇 算法 ) 和 使 用 时 的 解码 算法 ( 维特 比 算法 ) ， 
掌握 了 这 两 类 算法 ， 就 基本 上 可 以 使 用 隐 含 马尔 可 夫 模 型 这 个 工具 了 。 
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第 6 全 信息 的 度量 和 作用 


到 目前 为 止 , 虽然 我 们 一 直 在 谈论 信息 ,但 是 信息 这 个 概念 依然 有 些 抽 
象 。 我 们 常常 说 信息 很 多 ,或 者 信息 较 少 ,但 却 很 难说 清楚 信息 到 底 有 多 
少 。 比 如 一 本 50 多 万 字 的 中 文书 《史记 》 到 订 有 多 少 信息 量 ,或 者 一 套 
莎士比亚 全 集 有 多 少 信息 量 。 我 们 也 常 说 信息 有 用 .那么 它 的 作用 是 如 何 
客观 、 定 量 地 体现 出 来 的 呢 ? 信息 用 途 的 背后 是 否 有 理论 基础 呢 ? 这 两 
个 问题 几 千 年 来 都 没有 人 给 出 很 好 的 解答 。 直 到 1948 年 ， 香 农 (Claude 
Shannon ) 在 他 著名 的 论文 “通信 的 数学 原理 ” (4 Mathematic Theory of 
Communication ) 中 提出 了 “信息 炉 ”( 读 shang) ) 的 概念 ， 才 解决 了 信 
息 的 度量 问题 ， 并 且 量 化 出 信息 的 作用 。 


1 信息 燃 


一 条 信息 的 信息 量 和 它 的 不 确定 性 有 着 直接 的 关系 。 比 如 说 ， 我 们 要 搞 
清楚 一 件 非常 非常 不 确定 的 事 ， 或 是 我 们 一 无 所 知 的 事情 ， 就 需要 了 解 
大 量 的 信息 。 相 反 ， 如 果 我 们 对 某 件 事 已 经 有 了 较 多 的 了 解 ， 那 么 不 需 
要 太 多 的 信息 就 能 把 它 搞 清楚 。 所 以 ， 从 这 个 角度 来 看 ， 可 以 认为 ， 信 
息 量 就 等 于 不 确定 性 的 多 少 。 
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1 

如 无 特别 说明 ， 本 书 
中 的 对 数 一 律 以 2 为 
底 。 


那么 如 何 量 化 信息 的 度量 呢 ? 来 看 一 个 例子 。2010 年 举行 了 世界 标 足 球 
赛 ， 大 家 都 很 关心 谁 会 是 冠军 。 假 如 我 错过 了 看 世界 杯 ， 赛 后 我 问 一 个 
知道 比赛 结果 的 观众 “ 哪 支 球 队 是 冠军 ”? 他 不 愿意 直接 告诉 我 ， 而 让 
我 猜 ， 并 县 我 每 猜 一 次 ， 他 要 收 一 元 钱 才 肯 告 诉 我 是 否 猜 对 了 ， 那 么 我 
需要 付 给 他 多 少 钱 才 能 知道 谁 是 冠军 呢 ? 我 可 以 把 球 队 编 上 号 ， 从 1 到 
32， 然 后 提问 : “和 荃 军 的 球 队 在 1-16 号 中 吗 ? ”假如 他 告诉 我 猜 对 了 ， 
我 会 接着 问 : “冠军 在 1-8 号 中 吗 ? ”假如 他 告诉 我 猜 错 了 ， 我 自然 知 
道 冠军 队 在 9-16 号 中 。 这 样 只 需要 五 次 , 我 就 能 知道 哪 支 球 队 是 冠军 。 
所 以 ， 谁 是 世界 杯 冠 军 这 条 消息 的 信息 量 只 值 5 块 钱 。 


当然 ， 香 农 不 是 用 钱 ， 而 是 用 “比特 ”( Bit ) 这 个 概念 来 度量 信息 量 。 
一 个 比特 是 一 位 二 进 制 数 ， 计 算 机 中 的 一 个 字 节 是 8 比特 。 在 上 面 的 例 
子 中 ， 这 条 消息 的 信息 量 是 5 比特 。( 如 果 有 朝 一 日 有 64 支 球 队 进 入 决 
赛 阶 段 的 比赛 ， 那 么 “ 谁 是 世界 杯 冠 军 ” 的 信息 量 就 是 6 比特 ， 因 为 要 
多 猜 一 次 。 ) 读者 可 能 已 经 发 现 , 信息 量 的 比特 数 和 所 有 可 能 情况 的 对 数 
蚂 数 log 有 关 '。 (log32 = 5, log64 = 6) 


有 些 读者 此 时 可 能 会 发 现实 际 上 可 能 不 舌 要 猜 五 次 就 能 猜 出 谁 是 冠军 ， 因 
为 像 西 班 牙 . 巴西、 德国 .意大利 这 样 的 球 队 得 冠军 的 可 能 性 比 日 本 、 南 非 、 
韩国 等 球 队 大 得 多 。 因此 , 第 一 次 猜测 时 不 需要 把 32 支 球 队 等 分 成 两 个 组 ， 
而 可 以 把 少数 几 支 最 可 能 的 球 队 分 成 一 组 ， 把 其 他 队 分 成 另 一 组 。 然 后 猿 
冠军 球 队 是 否 在 那 几 支 热门 队 中 。 重 复 这 样 的 过 程 ， 根 据 夺 冠 概率 对 剩 下 
的 候选 球 队 分 组 ， 直至 找到 冠军 队 。 这 样 ,也许 三 次 或 四 次 就 猜 出 结果 。 
因此 ， 当 每 支 球 队 年 冠 的 可 能 性 ( 概率 ) 不 等 时 ，“ 谁 是 世界 标 冠军 ”的 
信息 量 比 5 比特 少 。 香 农 指 出 ， 它 的 准确 信息 量 应 该 是 


好 = 一 (pi .logPpi 十 pz .logpz 十 … 十 psz'1o0gpsz) (6.1 ) 


其 中 ，pt pz,…,paz 分 别 是 这 32 支 球 队 夺冠 的 概率 。 香 农 把 它 称 为 “ 信 
息 烂 ”( Entropy ) ,一 般 用 符号 日 表示 ， 单 位 是 比特 。 有 兴趣 的 读者 可 以 
推算 一 下 当 32 支 球 队 夺 冠 概率 相同 时 ， 对 应 的 信息 炉 等 于 5 比特。 有数 
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学 基础 的 读者 还 可 以 证 明 上 面 公 式 的 值 不 可 能 大 于 5。 对 于 任意 一 个 随机 
变量 X( 比如 得 冠军 的 球 队 ) ， 它 的 箭 定义 如 下 : 


H(X) = ~— 9 P(x)logP(x) (6.2 ) 


变量 的 不 确定 性 越 大 ， 焙 也 就 越 大 ， 把 它 摘 清 楚 所 需要 的 信息 量 也 就 越 
大 。 信息 量 的 量化 度量 为 什么 叫做 “ 炉 ” 这 么 一 个 奇怪 的 名 字 呢 ?因为 
它 的 定义 形式 和 热力 学 的 烂 有 很 大 的 相似 性 。 这 一 点 我 们 在 扩展 阅读 中 
再 介绍 。 


有 了 “和 焙 ” 这 个 概念 ， 就 下 以 回答 本 文 开 始 提 出 的 问题 ， 即 一 本 50 万 字 
的 中 文书 平均 有 多 少 信 息 量 。 我 们 知道 , 常用 的 汉字 (一 级 二 级 国标 ) 
大 约 有 7 000 字 。 假 如 每 个 字 等 概率 ， 那么 大 约 需 要 13 比特 ( 即 13 位 二 
进 制 数 ) 表示 一 个 汉字 。 但 汉字 的 使 用 是 不 平衡 的 。 实 际 上 ， 前 10% 的 
汉字 占 常用 文本 的 95% 以 上 。 因 此 ， 即 使 不 考虑 上 下 文 的 相关 性 ， 而 只 
考虑 每 个 汉字 的 独立 概率 , 那么 ,每 个 汉字 的 信息 炉 大 约 也 只 有 8-9 比特 。 
如 果 再 考虑 上 下 文 相关 性 ,每 个 汉字 的 信息 炉 就 只 有 5 比特 左右 。 所 以 ， 
一 本 50 万 字 的 中 文书 ,信息 量 大 约 是 250 万 比特 。 如 果 用 一 个 好 的 算法 
压缩 一 下 ， 整 本 书 可 以 存 成 一 个 320KB 的 文件 。 如 果 直 接 用 两 字 节 的 国 
标 编 码 存 储 这 本 闻 ， 大 约 需 要 1MB 大 小 ， 是 压缩 文件 的 三 倍 。 这 两 个 数 
量 的 兰 距 ， 在 信息 论 中 称 作 “大 余 度 ” ( Redundancy ) 。 需 要 指出 的 是 
这 里 讲 的 250 万 比特 是 个 平均 数 ， 同 样 长 度 的 书 ， 所 含 的 信息 量 可 以 相 
差 很 多 。 如 果 一 本 书 重复 的 内 容 很 多 ， 它 的 信息 量 就 小 ， 元 余 度 就 大 。 


不 同 语言 的 元 余 度 差别 很 大 , 而 汉语 在 所 有 语言 中 元 余 度 是 相对 小 的 。 大 
家 可 能 都 有 这 个 经 验 , 一 本 英文 书 ， 翻 译 成 汉语 ， 如 果 字 体 大 小 相同 ,， 那 
么 中 译本 一 般 都 会 薄 很 多 。 这 和 人 们 普遍 的 认识 一 - 汉语 是 最 简洁 的 语 
言 -一 是 一 致 的 。 对 中 文 信息 粹 有 兴趣 的 读者 可 以 读 我 和 王 作 英 教 授 在 
《电子 学 报 》 上 合 写 的 一 篇 文章 “汉语 信息 粹 和 语言 模型 的 复杂 度 ”°。 


2 
http:/rengine.cavip 
tom/content /citation 
dll?id=2155540 
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2 信息 的 作用 


日 古 以 来 ， 信 息 和 消除 不 确定 性 是 相 联 系 的 。 在 英语 里 ,信息 和 情报 是 
同一 个 词 (Information ) ， 而 我 们 知道 情报 的 作用 就 是 排除 不 确定 性 。 
有 些 时 候 , 在 战争 中 一 比特 的 信息 能 抵 过 千 军 万 马 。 在 第 二 次 世界 大 战 中 ， 
当 纳 粹 德国 兵 临 前 苏联 莫斯科 城下 时 ， 斯 大 林 在 欧洲 已 经 无 兵 可 派 ， 而 
他 们 在 西伯 利 亚 的 中 苏 边 界 却 有 60 万 大 军 不 敢 使 用 ， 因 为 苏联 人 不 知道 
德国 的 轴 心 国 盟 友 日 本 当时 的 军事 策略 是 北上 进攻 前 苏联 ， 还 是 南下 和 
美国 开战 。 如 果 是 南下 ,那么 苏联 人 就 可 以 放心 大 胆 地 从 亚洲 撤回 60 万 
大 军 增援 莫斯科 会 战 。 事 实 上 日 本 人 选择 了 南下 ， 其 直接 行动 是 后 来 的 
偷 效 珍珠 港 ， 但 是 苏联 人 并 不 知晓 。 斯 大 林 不 能 猜 ， 因 为 猜 错 了 后 果 是 
很 严重 的 。 这 个 “ 猜 ” 既 是 指 护 钢 铺 儿 似 的 卜 卦 , 也 包括 主观 的 腾 断 。 
最 后 ， 传 奇 间 谍 佐 尔格 向 莫斯科 发 去 了 信息 量 仅 1 比特 、 却 价值 无 限 的 
情报 〈 信 息 ) : “日 本 将 南下 ”， 于 是 前 苏联 就 把 西 但 利 亚 所 有 的 军队 
调 往 了 欧洲 战场 。 后 面 的 故事 大 家 都 知道 了 。 


如 果 把 这 个 故事 背后 的 信息 论 原理 抽象 化 、 普 让 化 ， 可 以 总 结 如 下 : 


信息 





图 6.1 信息 是 消除 系统 不 确定 性 的 唯一 办 法 ( 在 没有 获得 任何 信息 前 ， 一 个 系统 就 像 是 一 
个 黑 盒子 ， 引 入 信息 ， 就 可 以 了 解 黑 盒子 系统 的 内 部 结构 ) 

一 个 事物 ( 比如 上 面 讲 到 的 日 本 内 效 的 战略 决定 ) 内 部 会 存在 着 随机 性 ， 

也 就 是 不 确定 性 ， 假 定 为 U， 而 从 外 部 消除 这 个 不 确定 性 唯一 的 办 法 是 引 

人 信息 了, 而 需要 引入 的 信息 量 到 决 于 这 个 不 确定 性 的 大 小 , 即 7 > UV 才 行 。 

当 1 < U 时 , 这 些 信息 可 以 消除 一 部 分 不 确定 性 , 也 就 是 说 新 的 不 确定 性 。 


f 


U =U-I ( 6.3) 
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反之 , 如 果 没 有 信息 , 任何 公式 或 者 数字 的 游戏 都 无 法 排除 不 确定 性 。 
这 个 朴素 的 结论 非常 重要 ， 但 是 在 研究 工作 中 经 常 被 一 些 半 瓶子 栈 的 专 
家 忽视 ,希望 做 这 方面 工作 的 读者 谨 记 。 几 乎 所 有 的 自然 语言 处 理 、 信 
息 与 信号 处 理 的 应 用 都 是 一 个 消除 不 确定 性 的 过 程 。 读 了 这 本 书 早期 博 
客 的 读者 很 多 都 反映 ， 希望 我 多 讲 点 搜索 方面 的 例子 ， 因 此 这 里 就 以 搜 
索 为 例 说 明 信 息 的 作用 。 


网 页 搜索 本 质 上 就 是 要 从 大 量 ( 几 十 亿 个 ) 网 页 中 ,找到 和 用 户 输 人 的 搜 
索 词 最 相关 的 几 个 网 页 。 几 十 亿 个 可 能 性 ， 当 然 是 很 大 的 不 确定 性 U。 

如 果 只 和 镜 下 几 个 网 页 ， 就 几乎 没有 了 不 确定 性 了 (此 时 U' << U )， 其 至 
是 完全 确定 了 ( 对 于 导航 类 搜索 就 是 如 此 ， 第 一 条 结果 通常 就 是 要 找 的 
网 页 ) 。 因 此 ， 网 页 搜索 本 质 上 也 是 利用 信息 消除 不 确定 性 的 过 程 。 如 
果 提 供 的 信息 不 够 多 , 比如 搜索 词 是 常用 的 关键 词 , 诸如 “中 国 ”、 经 济 ” 
之 类 的 ， 那 么 会 有 好 多 相关 的 结果 ， 用 户 可 能 还 是 无 从 选择 。 这 时 正确 
的 做 法 是 挖掘 新 的 隐 含 的 信息 ， 比 如 网 页 本 身 的 质量 信息 。 如 果 这 些 信 
息 还 是 不 够 消除 不 确定 性 ,不 妨 再 问 问 用 户 。 这 就 是 相关 搜索 的 理论 基础 。 
不 正确 的 做 法 是 在 这 个 关键 词 上 玩 数 字 和 公式 的 游戏 ， 由 于 没有 额外 的 
信息 引 人 ， 这 种 做 法 没有 效果 ， 这 就 是 很 多 做 搜索 质量 的 人 非常 辛苦 却 
很 省 有 收获 的 原因 。 最 糟糕 的 做 法 是 引入 人 为 的 假设 ,这 和 “ 蒙 ” 没 什 
么 差别 。 其 结果 是 似乎 满足 了 个 别 用 户 的 口味 , 但 是 对 大 部 分 用 户 来 讲 ， 
搜索 结果 反而 变 得 更 粳 ( 这 就 如 同 斯 大 林 明 乱 猜 测 日 本 的 战略 意图 一 样 )。 
合理 利用 信息 , 而 不 是 玩弄 什么 公式 和 机 器 学 习 算 法 ,是 做 好 搜索 的 大 键 。 


知道 的 信息 越 多 ， 随 机 事件 的 不 确定 性 就 越 小 。 这 些 信息 ， 可 以 是 直接 
针对 我 们 要 了 解 的 随机 事件 ， 比 如 上 面 提 到 的 日 本 内 阅 的 战略 决定 ; 也 
可 以 是 和 我 们 关心 的 随机 事件 相关 的 其 他 (事件 ) 的 信息 一 通过 获取 
这 些 相关 信息 也 能 帮助 我 们 了 解 所 关注 的 对 象 。 比 如 在 前 面 几 章 提 到 的 
自然 语言 的 统计 模型 , 其 中 的 一 元 模型 就 是 通过 某 个 词 本 身 的 概率 分 布 ， 
来 消除 不 确定 因素 ; 而 二 元 及 更 高 阶 的 语言 模型 则 还 使 用 了 上 下 文 的 信 
息 ， 那 就 能 准确 预测 一 个 句子 中 当前 的 词汇 了 。 在 数学 上 可 以 严格 地 证 
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明 为 什么 这 些 “ 相 关 的 ”信息 也 能 够 消除 不 确定 性 。 为 此 ， 需 要 引信 一 
个 条 件 炉 ( Conditional Entropy ) 的 概念 。 


假定 X 和 Y 是 两 个 随机 变量 ,，X 是 我 们 需要 了 解 的。 假定 我 们 现在 知道 了 
X 的 随机 分 布 P(X) ， 那 么 也 就 知道 了 X 的 炉 : 


H(X)=—2 P(x) :logP(x) (6.4 ) 


那么 它 的 不 确定 性 就 是 这 么 大 。 现 在 假定 我 们 还 知道 了 的 一 些 情况 ， 包 括 
它 和 XX 一 起 出 现 的 概率 ， 在 数学 上 称 为 联合 概率 分 布 (Joint Probability ) ， 
以 及 在 Y 取 不 同 值 的 前 提 下 X 的 概率 人 分布， 在 数学 上 称 为 条 件 概率 分 布 
( Conditional Probability ) 。 和 定义 在 Y 的 条 件 下 和 的 条 件 焙 为 ， 


H(XIY) = 一 六 P(xy)iogPCxzly) (6.5 ) 


XEX YEY 


在 本 章 的 延伸 阅读 中 ,我 们 会 证 明 H(X) 二 有 人 | 人， 也 就 是 说 多 了 了 
的 信息 ， 关 于 X 的 不 确定 性 下 降 了 1! 在 统计 语言 模型 中 ， 如 果 把 Y 看 成 
是 前 一 个 字 , 那么 在 数学 上 就 证 明了 二 元 模型 的 不 确定 性 小 于 一 元 模型 。 
同样 的 道理 ， 可 以 定义 有 两 个 条 件 的 条 件 炳 


H(X]Y,2) = — DP(x, y,2)1og P(x|y, 2) (6.6) 


XENYEY.ZEZ 


还 可 以 证 明 HCXIY) > HCX|Y,Z)。 也 就 是 说 ， 三 元 模型 应 该 比 二 元 的 好 。 


最 后 还 有 一 个 有 意思 的 问题 ， 存 上 面 的 公式 中 的 等 号 什么 时 候 成 立 ? 等 
号 成 立 说 明 增 加 了 信息 ,不 确定 性 却 没有 降低 ,这 可 能 么 ? 管 案 是 肯定 的 ， 

即 当 我 们 获取 的 信息 和 我 们 要 研究 的 事物 没有 关系 的 时 候 。 再 回 到 本 节 
上 面 的 例子 ， 如 果 估 尔格 送 去 的 情报 是 关于 德国 人 和 英 冰 人 在 北非 的 军 
事 行动 ， 则 不 论 这 样 的 情报 有 和 多少， 都 解决 不 了 斯 大 林 的 困惑 。 


用 一 句 话 概括 这 一 节 : 信息 的 作用 在 于 消除 不 确定 性 ， 自 然 语言 处 理 的 
大 量 问题 就 是 找 相 关 的 信息 。 
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读者 知识 背景 : 概率 论 。 


前 面 已 经 介绍 了 信息 烂 ， 它 是 信息 论 的 基础 ， 信 息 论 在 自然 语言 处 理 中 扮 

演 着 指导 性 的 角色 ,在 这 一 节 里 我 们 看 看 信息 论 的 另外 两 个 重要 的 概念 一 
“互信 息 ” (Mutual Information ) 和 “相对 业 ” ( Relative Entropy， 或 

Kullback-Leibler Divergence ) ， 以 及 它们 在 自然 语言 处 理 中 的 作用 。 


3.1 互信 息 


前 面 6.2 节 中 提 到 ， 当 获取 的 信息 和 要 研究 的 事物 “有 关系 ”时 ， 这 些 信 
息 才能 帮助 我 们 消除 不 确定 性 。 当 然 “ 有 关系 ”这 种 说 法 太 模糊 , 太 不 科学 ， 
最 好 能 够 量化 地 度量 “相关 性 ”。 比 如 常识 告诉 我 们 ， 一 个 随机 事件 “ 今 
天 北京 下 雨 ” 和 另 一 个 随机 变量 “过 去 24 小 时 北京 空气 的 湿度 ”的 相关 
性 就 很 大 ， 但 是 它们 的 相关 性 到 底 有 多大 ? 再 比如 “过 去 24 小 时 北京 空 
气 的 湿度 ”似乎 就 和 “旧金山 的 天 气 ” 相 关 性 不 大 ,但 我 们 是 否 能 说 它 
们 毫 无 相关 性 ? 为 此 ， 香 农 在 信息 论 中 提出 了 一 个 “互信 息 ” 的 概念 作 3 


se 按照 蝴蝶 效应 的 理 
为 对 两 个 随机 事件 “相关 性 ”的 量化 度量 。 8 它们 的 相关 性 
并 不 如 想象 得 那么 
、 z i -! 小 ! 
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6.2 好 阅 热 啊 ， 要 下 十 了 。 闷 热 和 下 雨 直接 的 互信 息 很 高 
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假定 有 两 个 随机 事件 xX 和 Y ， 它们 的 互信 息 定义 如 下 ; 


I(X;Y) = YP(x,y)log Ply) 


xexyey P(x)P(Y) ( 6.7) 


很 多 见 了 公式 就 涉 大 的 读者 看 了 这 个 定义 可 能 会 感到 有 点 烦 。 不 过 没关系 ， 
大 家 只 要 记 住 这 个 符号 1(X; 了 7) 就 好 。 我 们 接着 会 证 明 ， 其 实 这 个 互信 息 就 
是 上 节 介 绍 的 随机 事件 Xx 的 不 确定 性 或 者 说 炉 H(X) ， 以 及 在 知道 随机 事 
件 Y 条 件 下 的 不 确定 性 ， 或 者 说 条 件 炉 HCIY) 之 间 的 差异 ， 即 


I(X;Y) = HC(X) ~ HXYY) ( 6.8) 


现在 清楚 了 ， 所 谓 两 个 事件 相关 性 的 量化 度量 ， 就 是 在 了 解 了 其 中 一 个 
Y 的 前 担 下 ,对 消除 另 一 个 X 不 确定 性 所 提供 的 信息 量 。 需 要 讲 一 下 ， 
互信 息 是 一 个 取 值 在 0 到 min(H(X)，H( 站 )) 之 间 的 序数 ， 当 X 和 Y 完全 相 
关 时 ， 它 的 取 值 是 1;， 当 二 者 完全 无 关 时 ， 它 的 取 值 是 0。 


在 自然 语言 处 理 中 ， 两 个 随机 事件 ， 或 者 语言 特征 的 互信 息 是 很 容易 计 
算 的 。 只 要 有 足够 的 语 料 ， 就 不 难 佑 计 出 互信 息 公 式 中 的 P(X,Y) ，POO 
和 P(Y) 三 个 概率 ， 进 而 算出 互信 息 。 因 此 ， 互 信息 被 广泛 用 于 度量 一 些 
语言 现象 的 相关 性 。 


机 器 翻译 中 ， 最 难 的 两 个 问题 之 一 是 词义 的 二 义 性 〈 又 称 歧 义 性 ， 
Ambiguation ) 问题 。 比 如 Bush 一 词 可 以 是 美国 总 统 布什 的 名 字 ， 也 可 
以 是 灌 林 从 。( 有 一 个 笑话 ，2004 年 和 布什 争夺 总 统 的 民主 党 候选 人 克 
里 的 名 字 Kerry 被 一 些 机 器 翻译 系统 翻译 成 了 “爱尔兰 的 小 母 牛 ”， 这 
是 Kerry 在 英语 中 的 另外 一 个 意思 。 ) 
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图 6.3 布什 和 和 克 里 电 视 辩 论 ( “灌木 从 ”总 统 ，“ 小 母 牛 ”参议 员 ) 


那么 如 何 正 确 地 翻译 这 些 词 呢 ? 人 们 很 容易 想到 要 用 语法 、 要 分 析 语 名 
等 等 。 其 实 ， 迄 今 为 止 ， 没 有 一 种 语法 能 很 好 地 解决 这 个 问题 ， 因 为 
Bush 不 论 翻 译 成 人 名 还 是 灌木 从 , 都 是 名 词 , 在 语法 上 没有 太 大 问题 。 
当然 爱 较真 的 读者 可 能 会 提出 “必须 加 上 总 统 做 宾语 时 ， 主 语 得 是 一 个 
人 这 条 规则 ”, 要 是 这 样 , 语法 规则 就 多 得 数 不 清 了 , 而 且 还 有 很 多 例外 ， 
比如 一 个 国家 在 国际 组 织 中 也 可 以 做 主席 (总 统 ) 的 轮值 国 。 其 实 ， 真 
正 简单 却 非常 实用 的 方法 是 使 用 互信 息 。 具 体 的 解决 办 法 大 致 如 下 : 首 
先 从 大 量 文本 中 找 出 和 总 统 布什 一 起 出 现 的 互信 息 最 大 的 一 些 词 ， 比 如 
总 统 、 美 国 、 国 会 、 华 盛 顿 等 等 ， 当 然 ， 再 用 同样 的 方法 找 出 和 灌木 丛 
一 起 出 现 的 互信 息 最 大 的 词 , 比如 土壤 、 植物 、 野 生 等 等 。 有 了 这 两 组 词 ， 
在 翻译 Bush 时 ， 看 看 上 下 文中 哪 类 相关 的 词 多 就 可 以 了 。 这 种 方法 最 初 
是 由 吉尔 (William Gale ) 、 丘 奇 ( Kenneth Church ) 和 雅 让 斯 基 ( David 
Yarowsky ) 提出 的 。 


20 世纪 90 年 代 初 ， 雅 让 斯 基 在 宾夕法尼亚 大 学 是 自然 语言 处 理 大 师 马 
库 斯 ( Mitch Marcus ) 教授 的 博士 生 ， 他 很 多 时 候 都 泡 在 贝尔 实验 室 丘 
奇 等 人 的 研究 室 里 。 也 许 是 急于 毕业 ， 他 在 吉尔 等 人 的 帮助 下 想 出 了 一 
个 最 快 也 是 最 好 地 解决 翻译 中 的 二 义 性 的 方法 ， 就 是 上 面 的 方法 ， 这 个 
看 上 去 简单 的 方法 效果 好 得 让 同行 们 大 吃 一 惊 。 雅 让 斯 基因 而 只 花 了 三 
年 就 从 马 库 斯 那里 拿 到 了 博士 ， 而 他 的 师兄 弟 们 平均 要 花 六 年 时 间 。 
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3,2 ”相对 炳 


信息 论 中 另外 一 个 重要 的 概念 是 “相对 炉 ”， 在 有 些 文献 中 它 被 称 为 “ 交 
叉 炉 ”， 在 英语 中 是 Kullback-Leibler Divergence， 是 以 它 的 两 个 提出 者 
库 尔 贝 克 和 莱 们 勤 的 名 字 命 名 的 。 相 对 入 也 用 来 衡量 相关 人 性， 但 和 变量 
的 互信 息 不 同 ， 它 用 来 衡量 两 个 取 值 为 正 数 的 函数 的 相似 性 ， 它 的 定义 
如 下 : 


KU/ Ng) = 5 /0)-lo8 pe (69) 


同样 ， 大 家 不 必 关 心 公 式 本 身 ， 只 要 记 住 下 面 三 条 结论 就 好 : 


1， 对 于 两 个 完全 相同 的 项 数 ， 它 们 的 相对 炳 等 于 零 。 


2， 相 对 业 越 大 ， 两 个 函数 差异 越 大 ; 反之 ， 相 对 售 越 小 ， 两 个 函 
数 差异 越 小 。 


3， 对 于 概率 分 布 或 者 概率 密度 函数 ， 如 果 取 值 均 大 于 零 ， 相 对 炉 
可 以 度量 两 个 随机 分 布 的 差异 性 。 


在 自然 语言 处 理 中 相对 箭 的 应 用 很 多 ， 比 如 用 来 衡量 两 个 常用 词 ( 在 语 
法 上 和 语义 上 ) 在 不 同文 本 中 的 概率 分 布 ， 看 它们 是 否 同 义 ; 或 者 根据 
两 篇 文章 中 不 同 词 的 分 布 , 看 看 它们 的 内 容 是 否 相 近 等 等 。 利 用 相对 粹 ， 
可 以 得 到 信息 检索 中 最 重要 的 一 个 概念 词 频率 - 逆向 文档 频率 ( TF- 
IDF ), 后 面 会 在 网 页 搜索 相关 性 和 新 闻 分 类 中 进一步 介绍 TF-1DF 的 概念 。 


米 、 条 件 炉 和 相对 烂 这 三 个 概念 与 语言 模型 的 关系 非常 密切 。 我 们 在 第 
二 章 中 谈 到 请 言 模型 时 ， 没 有 讲 如 何 定量 地 衡量 一 个 语言 模型 的 好 坏 ， 
因为 当时 还 没有 介绍 这 三 个 概念 。 当 然 ， 读 者 会 很 目 然 地 想到 ， 既 然 语 
言 模型 能 减少 语音 识别 和 机 器 翻译 的 错误 ， 那 么 就 拿 一 个 语音 识别 系统 
或 者 机 器 翻译 软件 来 试 试 ， 好 的 语言 模型 必然 导致 错误 率 较 低 。 这 种 想 
法 是 对 的 ， 丽 且 今 天 的 语音 识别 和 机 器 翻译 也 是 这 么 做 的 。 但 这 种 测试 
方法 对 于 研发 语言 模型 的 人 来 讲 ， 既 不 直接 ， 又 不 方便 ， 而 且 很 难 从 错 
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误 率 反 过 来 定量 度量 语言 模型 。 事 实 上 , 在 页 里 尼克 等 人 研究 语言 模型 时 ， 
世界 上 既 没 有 像样 的 语音 识别 系统 ， 更 没有 机 器 翻译 。 我 们 知道 ,语言 
模型 是 为 了 用 上 下 文 预测 当前 的 文字 ， 模 型 越 好 ， 预 测 得 越 准 ， 那 么 当 
前 文字 的 不 确定 性 就 越 小 。 


信息 闹 正 是 对 不 确定 性 的 衡量 ， 因 此 可 以 想象 信息 箭 能 直接 用 于 衡量 统 
计 语 言 模型 的 好 坏 。 当 然 ， 因 为 有 了 上 下 文 的 条 件 ， 所 以 对 高 阶 的 语言 
模型 ， 应 该 用 条 件 炉 。 如 果 再 考虑 到 从 训练 语 料 和 真实 应 用 的 文本 中 得 
到 的 概率 晒 数 有 侦 差 ， 就 需要 再 引 人 相 对 简 的 概念 。 贾 里 尼克 从 条 件 料 
和 相对 箭 出 发 , 定义 了 一 个 称 为 语言 模型 复 琳 度 ( Perplexity ) 的 概念 ， 
直接 衡量 语言 模型 的 好 坏 。 复 杂 度 有 很 浓 晰 的 物理 含义 ， 它 是 在 给 定 上 
下 文 的 条 件 下 ， 句 子 中 每 个 位 置 平 均 可 以 选择 的 单词 数量 。 一 个 模型 的 
复杂 度 越 小 ， 每 个 位 置 的 词 就 越 确 定 ， 模 型 越 好 。 


李开复 博士 在 介绍 他 发 明 的 Sphinx 语音 识别 系统 的 论文 里 谈 到 ， 如 果 不 
用 任何 语言 模型 ( 即 零 元 语言 模型 ) 时 ， 复 杂 度 为 997， 也 就 是 说 句子 中 
每 个 位 置 有 997 个 可 能 的 单词 可 以 十 人 。 如 果 (二 元 ) 语言 模型 只 考虑 
前 后 词 的 搭配 不 考虑 搭配 的 概率 时 ， 复 杂 度 为 60。 虽 然 它 比 不 用 语言 
型 好 很 多 ， 但 是 和 考虑 了 搭配 概率 的 二 元 语言 模型 相 比 要 差 很 多 ， 因 为 
后 者 的 复杂 诬 只 有 20。 


对 信息 论 有 兴趣 又 有 一 定数 学 基础 的 读者 ， 可 以 阅读 斯 坦 福 大 学 托 马 
斯 科 弗 (Thomas Cover ) 教授 的 专著 《信息 论 基 础 》 (Elements of 
Information Theory ) 。 科 弗 教 授 是 当今 最 权威 的 信息 论 专家 。 


4 小 结 


信息 箭 不仅 是 对 信息 的 量化 度量 , 而 且 是 整个 信息 论 的 基础 。 它 对 于 通信 、 
数据 压缩 、 自 然 语 言 处 理 都 有 很 强 的 指导 意义 。 信 息 燃 的 物理 含义 是 对 
一 个 信息 系统 不 确定 性 的 度量 , 在 这 一 点 上 , 它 和 热力 学 中 炉 的 概念 相同 ， 
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因为 后 者 是 对 于 一 个 系统 无 序 的 度量 。 这 说 明科 学 上 很 多 看 似 不 同 的 学 
科 之 间 也 会 有 很 强 的 相似 性 。 


参考 文献 : 


1. Thomas M. Cover, Joy A. Thomas. Elements of 1nformation Theory New York: Wiley, 

1991. 15BN 0-471-06259-6 

中 译本 : 

Thomas M. Cover, Joy A. Thomas， 信 息 论 基 础 ， 清 华 大 学 出 版 社 ，2003 

2. Kaj-Fu Lee, Automatic Speech Recognijtion:The Development of the SPHINX System, 
_ Springer, 1989. 

3. Gale, W., K. Church, and D. Yarowsky. ‘A Method for Disambiguating Word Senses in a 

Large Corpus." Computers and the Humanities. 26, pp. 415-439, 1992 
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说 以 本 章 纪 念 弗 里 德里 克 " 责 里 尼克 博士 
1932 年 1 月 18 日 - 2010 年 9 月 14 日 


当 我 最 初 在 “谷歌 黑板 报 ” 上 发 表 “ 数 学 之 美 ” 系 列 文章 时 ,为 了 引起 
读者 的 兴趣 ， 介 绍 了 一 些 成 功 地 将 数学 原理 应 用 于 自然 语言 处 理 领 域 的 
大 师 和 和 学者。 但 我 的 根本 目的 不 是 为 了 单纯 讲 故事 ,更 不 是 为 了 聊 八 卦 ， 
而 是 为 了 给 有 志 于 信息 领域 研究 的 年 轻 人 介绍 一 批 大 师 和 成 功 者 ， 让 大 
家 学 习 到 他 们 的 思维 方法 ， 从 而 能 获得 他 们 那样 的 成 功 。 在 当今 物欲 横 
流 的 中 国 社会 ， 学 术 界 浮躁 ,年轻 人 浮躁， 少数 有 着 远大 志 问 的 年 轻 人 
实际 上 是 非常 孤独 的 。 这 很 像 罗曼 ' 罗兰 描写 一 战 后 的 法 国 。 罗 曼 ' 罗 
兰 为 那些 追求 灵魂 高 尚 而 非 物 质 宦 裕 的 年 轻 人 写 下 了 《巨人 三 传 》, 让 
大 家 呼吸 到 巨人 的 气息 。 今 天 ,我 希望 把 一 批 大 师 介 绍 给 有 志学 子 。 我 
们 从 弗 里 德里 克 ' 栅 里 尼克 开始 。 


按 顺 序 读 到 这 一 章 的 读者 也 许 注意 到 了 ， 我 们 在 前 面 的 章节 中 多 次 提 到 
了 贾 里 尼克 这 个 名 字 。 事 实 上 ， 现 代 语 音 识 别 和 自然 语言 处 理 确实 是 跟 
他 的 名 字 紧 密 联 系 在 一 起 的 。 在 这 里 我 不 想 列举 他 的 贡献 ， 而 想 讲 一 讲 
他 作为 一 个 普通 人 的 故事 。 这 些 事 要 么 是 我 亲身 经 历 的 ， 要么 是 他 亲口 
对 我 讲 的 。 


1 

即 《贝多 芬 传 》《 米 
开朗 基 罗 传 》 和 和 《 托 
尔 斯 泰 传 》。 
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2 
捷克 中 部 距 首都 布 
拉 格 25 公里 的 小 
城 。 





图 7.1 村 里 尼克 


1 早年 生活 


弗 里 德里 克 … 村 里 尼克 ( Frederek Jelinek， 我 们 称 他 弗 莱 德 ) 出 生 于 捷 
克 克 拉 德 诺 ( Kladno ) 一 个 富有 的 犹太 家 庭 ， 他 的 父亲 是 一 位 牙科 医生 。 
承袭 了 犹太 民族 的 传统 ， 上 弗 莱 德 的 父母 从 小 就 很 注意 他 的 教育 ， 并 且 打 
算 送 他 去 英国 的 公 学 ( 私立 学 校 ) 读书 。 为 了 教 他 学 好 德语 ， 还 专门 请 
了 一 位 德国 的 家 庭 女 教师 。 但 是 第 二 次 世界 大 战 完全 打 碎 了 他 们 的 梦想 。 
他 们 先是 被 从 家 中 赶 了 出 去 , 流浪 到 布拉格 。 他 的 父亲 死 在 了 集中 营 ， 
弗 莱 德 自 己 成 天 在 街 上 玩 丰 ， 完 全 荒废 了 学 业 。 二 战 后 ， 当 弗 莱 德 再 度 
回 到 学 校 时 ， 他 不 仅 要 从 小 学 补 起 ， 而 且 成 绩 一 塌 糊 涂 ， 全 部 是 D， 但 
是 很 快 他 就 赶 上 了 班 上 的 同学 。 不 过 ， 他 在 小 学 时 从 来 没有 得 过 A。 


1946 年 ， 捷 克 开 始 了 前 苏联 似 的 集权 统治 。 弗 莱 德 的 母亲 吸取 了 他 父亲 
当年 的 教训 ， 果 断 决 定 带 着 并 不 富有 的 全 家 移民 美国 。 弗 莱 德 后 来 讲 ， 
“我 母亲 做 了 一 个 非常 正确 的 决定 〈 指 离开 捷克 到 美国 一 事 ) ， 她 没有 
犯 我 和 父亲 同样 的 错误 。 当 年 我 父亲 已 经 把 所 有 的 (牙医 ) 设备 运 到 了 
英国 ,可 是 他 对 德国 人 还 是 抱 有 幻想 ,在 最 后 时 刻 留 了 下 来 。” 在 美国 ， 
村 里 尼克 一 家 生活 非常 贫困 ， 全 家 基本 是 靠 母 亲 做 点 心 赚钱 为 生 ， 弗 莱 
德 当 时 只 有 十 几 岁 ， 就 进 工厂 打工 赚钱 补贴 家 用 。 显 然 ， 他 没有 ( 可 能 ) 
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天 天 采 在 教室 和 家 里 ， 把 时 间 都 花 在 课本 上 ， 他 在 上 大 学 前 花 在 读书 上 
的 时 间 悉 怕 连 现在 一 般 好 学 生 的 一 半 都 不 到 。 当 然 ， 我 自己 在 小 学 ( 文 
革 阶 段 ) 和 中 学 (上 个 世纪 80 年 代 ) 花 在 课本 上 的 时 间 也 不 到 现在 学 生 
的 一 半 。 所 以 我 们 都 不 赞同 中 小 学 生 只 会 上 学 考试 的 教育 方式 。 


每 当 弗 莱 德 和 我 谈 起 我 们 各 自 少年 时 的 教育 , 我 们 都 同意 这 样 几 个 观点 。 
首先 ， 小 学 生 和 中 学 生 其 实 没 有 必要 花 那么 多 时 间 读 书 ， 而 他 们 的 社会 
经 验 、 生 活 能 为 以 及 在 那 时 树立 起 的 志向 将 帮助 他 们 的 一 生 。 第 二 ， 中 
学 阶段 花 很 多 时 间 比 同伴 多 读 的 课程 ， 在 大 学 以 后 用 非常 短 的 时 间 就 可 
以 读 完 ， 因 为 在 大 学 阶段 ， 人 的 理解 力 要 强 得 多 。 举 个 例子 ， 在 中 学 需 
要 花 500 小 时 才能 学 会 的 内 容 ， 在 大 学 可 能 花 100 小 时 就 够 了 。 因 此 ， 
一 个 学 生 在 中 小 学 阶段 建立 的 那 一 点 点 优势 在 大 学 很 快 就 会 丧失 歼 尽 。 
第 三 ， 学 习 《 和 教育 ) 是 一 个 人 一 奉子 的 过 程 ， 很 多 中 学 成 绩 好 的 亚 毅 
学 生 进 和 名校 后 表现 明显 不 如 那些 因为 兴趣 而 读书 的 美国 同伴 ， 因 为 前 
者 不 断 读书 的 动力 不 足 。 第 四 ， 书 本 的 内 容 可 以 早 学 ,也 可 以 晚 学 , 但 
是 错过 了 成 长 阶段 却 是 无 法 补 回来 的 。( 因此 ， 少 年 班 的 做 法 不 是 取 。) 
现在 中 国 的 好 学 校 里 ， 怒 怕 百 分 之 九 十 九 的 孩子 在 读书 上 花 的 时 间 比 我 
当时 要 多 ， 更 比 里 里 尼 死 要 多 得 多 ， 但 是 这 些 孩 子 今天 可 能 有 用 分 之 
九 十 九 在 学 术 上 的 建树 不 如 我 ,更 不 如 机 里 尼克 。 这 实在 是 教育 的 误区 。 


村 里 尼克 最 初 的 理想 在 他 十 来 岁 时 就 建立 起 来 了 ,他 原本 想 成 为 一 个 律 
师 ， 为 他 父亲 那样 的 冤屈 者 辩护 ,但 是 到 美国 后 ， 他 很 快意 识 到 他 那 浓 
厚 的 外 国 口 音 将 使 他 在 法 庭 上 的 辩护 很 吃力 。 费 里 尼克 的 第 二 个 理想 是 
成 为 医生 ， 也 算是 子 承 父 业 。 他 和 想 进 哈 佛 大 学 医学 院 ， 但 他 无 力 承 担 医 
学 院 8 年 高 郧 的 学 费 (4 年 的 本 科教 育 加 上 4 年 的 医学 院 教育 ) 。 而 恰恰 
此 时 麻 省 理工 学 院 给 了 他 一 份 ( 为 东欧 移民 设 的 ) 全 额 奖 学 金 。 贾 里 尼 
克 决 定 到 麻 省 理工 学 电机 工程 。 机 里 尼克 的 理想 在 不 断 改 变 ， 但 是 他 通 
过 努力 走向 成 功 的 志向 一 直 没 有 改变 。 


在 那里 ， 他 遇 到 了 许多 世界 级 的 大 师 ， 包 括 信息 论 的 鼻 钥 在 农 博 士 ， 和 和 
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3 
雅 格 布 森 的 通信 模 
型 见 第 三 章 。 


生 

“Every time | 
fire a linguist, the 
performance of the 
speech recognizer 
poes up'. 


5 

国际 声学 、 语 音 和 
信号 处 理 大 会 ， 
International Con- 
ference on Acoustic, 
Speech and Sjgnal 
Processing 


6 
http://icassp99. 
asu.edu/technic 
al/plenary/jelinek. 
html 


语言 学 大 师 雅 格 布 琳 (Roman Jakobson , 他 提出 了 著名 的 通信 六 要 素 ? ) 。 
后 来 贾 里 尼克 的 太太 米兰 娜 从 捷克 来 到 美国 ， 在 哈佛 大 学 求学 ， 弗 菜 德 
经 常 去 邻 校 哈佛 陪 着 太太 听课 。 在 那里 ， 他 经 常 去 听 伟 大 的 语言 学 家 乔 
姆 斯 基 〈《Noam Chomsky ) 的 课 。 这 三 位 大 师 对 贾 里 尼克 后 来 的 研究 方向 
-一 利用 信息 论 解 决 语言 问题 产生 了 重要 影响 。 我 一 直 认 为 ， 一 个 人 想 
要 在 目 己 的 领域 做 到 世界 一 流 ， 他 的 周围 必须 有 非常 多 的 一 流 人 物 。 贾 
里 尼克 的 幸运 之 处 在 于 他 在 年 轻 的 时 候 得 到 了 这 些 大 师 的 指点 ， 以 后 在 
研究 境界 上 比 同龄 人 高 出 了 一 筹 。 


弗 莱 德 从 麻 省 理工 获得 博士 学 位 后 ， 在 哈佛 大 学 教 了 一 年 书 ， 然 后 到 康 
奈 尔 大 学 任教 成 了 机 里 尼克 教授 。 他 之 所 以 选择 康 奈 尔 大 学 ， 是 因为 
找 工作 时 和 那里 的 一 位 语言 学 家 险 克 特 ( Charles Hackott ) 谈 得 颇 为 投机 。 
当时 那 位 教授 表示 愿意 和 页 里 尼克 在 利用 信息 论 解决 语言 问题 上 进行 合 
作 。 但 是 ， 等 贾 里 尼克 到 康 奈 尔 以 后 ， 那 位 教授 表示 对 语言 学 不 再 有 兴 
趣 而 转向 写 歌 剧 了 。 贰 里 尼克 对 语言 学 家 的 坏 印 象 从 此 开始 。 加 上 后 来 
他 在 IBM 时 发 现 语言 学 家 们 嘴 上 头头 是 道 ， 干 起 活 来 高 不 成 低 不 就 ， 对 
语言 学 家 从 此 深恶痛绝 。 他 甚至 说 : “我 每 开除 一 名 语言 学 家 ， 我 的 语 
音 识 别 系统 识别 率 就 会 提高 一 点 。”“ 这 人 句 话 后 来 在 业界 广 为 流 传 ， 为 每 
一 个 搞 语音 识别 和 语言 处 理 的 人 所 熟知 。 


2 ”从 水 门 事件 到 莫 妮 卡 … 莱 温 斯 基 


这 个 标题 不 是 我 为 了 哗众取宠 而 起 的 ， 而 是 贾 里 尼克 在 1999 年 ICASSP* 
做 的 大 会 报告 的 题目 “， 因 为 水 门 事件 发 生 的 时 间 (1972 年 ) 恰恰 是 统计 
语音 识别 和 自然 语言 处 理 开 始 的 时 间 ， 而 因 莱 温 斯 基 事件 弹 劾 克林顿 总 
统 也 正好 发 生 于 当时 会 议 前 一 年 。 


机 里 尼克 在 康 奈 尔 十 年 磨 一 剑 ， 潜 心 研究 信息 论 ， 终 于 悟 出 了 自然 语言 处 
理 的 真 席 。1972 年 , 村 里 尼克 到 IBM 华 生 实验 室 做 学 术 休 假 (Sabbatical ) ， 
无 意 中 领 导 了 语音 识别 实验 室 ， 两 年 后 他 在 康 奈 尔 和 IBM 之 间 选 择 了 留 
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在 IBM。 在 那里 ， 贾 里 尼克 组 建 的 研究 队伍 阵容 之 强大 可 谓 空 前 绝 后 ， 
其 中 包括 他 的 著名 搭档 波 尔 (L. Bahl ) ， 著 名 的 语音 识别 Dragon 公司 的 
人 刨 始 人 贝克 夫妇 〈Jim Baker & Janet Baker ) ， 解 决 最 大 烂 迭代 算法 的 达 
拉 皮 垂 〈(S. Della Pietra 和 V. Della Pietra ) 挛 生 兄弟 ，BCJR 算法 的 另外 
两 个 共同 提出 者 库 克 (J. Cocke ) 和 拉 维 夫 (J. Raviv ) ， 以 及 第 一 个 提出 
机 器 翻译 统计 模型 的 布朗 (Peter Brown ) 。 就 连 当年 资历 最 浅 的 小 字 辈 
人 物 拉 法 特 ( John Laffety ) 现在 都 成 了 了 不 起 的 学 者 。 


上 个 世纪 70 年 代 的 IBM 有 点 像 上 个 世纪 90 年 代 的 微软 和 过 去 10 年 ( 施 
密 特 时 代 ) 的 Google, 给 予 杰出 科学 家 做 任何 有 兴趣 研究 的 自由 。 在 那 种 
宽松 的 环境 里 ， 贾 里 尼克 等 人 提出 了 统计 语音 识别 的 框架 结构 。 在 枫 里 
尼克 之 前 ， 科 学 家 们 把 语音 识别 问题 当 作 人 工 智能 和 模式 匹配 问题 。 而 
贾 里 尼克 把 它 当成 通信 问题 , 并 用 两 个 隐 含 马尔 可 夫 模 型 (声学 模型 和 请 
言 模型 ) 把 语音 识别 概 插 得 清 清楚 楚 。 这 个 框架 结构 对 至 今 的 语音 和 语言 
处 理 有 着 深远 的 影响 ， 它 不 仅 从 根本 上 使 得 语音 识别 有 实用 的 可 能 ， 而 
且 黄 定 了 今天 自然 语言 处 理 的 基础 。 贾 里 尼克 本 人 后 来 也 因此 当选 美国 
工程 院 院 士 ， 并 且 被 Technology 杂志 评 为 20 世纪 100 名 发 明 家 之 一 。 


贾 里 尼克 的 前 华 香农 等 人 在 将 统计 的 方法 用 于 上 月 然 语言 处 理 时 ， 遇 到 了 
两 个 不 可 逾越 的 障碍 : 缺乏 计算 能 力 强大 的 计算 机 和 大 量 可 以 用 于 统计 
的 机 读 文 本 语 料 。 最 后 ， 他 的 前 辈 们 不 得 不 选择 放弃 。 在 上 个 世纪 70 年 
代 的 IJBM， 虽 然 计 算 机 的 计算 能 力 不 能 和 今天 相 比 ， 但 是 ， 已 经 可 以 做 
不 少 事情 了 。 贾 里 尼克 和 他 的 同事 需要 解决 的 问题 就 是 如 何 去 找 到 大 量 
的 机 读 语 料 。 这 在 今天 已 经 不 是 问题 的 问题 ， 在 当时 可 是 有 点 麻烦 ， 因 
为 当时 不 仅 没 有 网 页 ， 连 出 版 物 大 多 都 没有 电子 版 的 记录 ,即使 有 ， 也 
在 不 同 的 出 版 商 手 里 ， 很 难 收集 全 。 好 在 当时 有 一 项 全 球 性 的 业务 是 通 
过 全 球 电信 网 连接 在 一 起 的 ， 就 是 电 传 。IBM 的 科学 家 最 初 就 是 通过 电 
传 业务 的 文本 开始 进行 自然 语言 处 理 研 究 的 。 


回想 起 来 ， 基 于 统计 的 自然 语言 处 理 方 法 由 在 上 个 世纪 70 年 代 的 IBM 
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训 定 ,有 着 历史 的 必然 性 。 首先 , 只 有 IBM 有 足够 强大 的 计算 功能 和 数据 。 
其 次 ,机 里 尼克 (等 人 ) 已 经 在 这 个 领域 做 了 十 多 年 的 理论 研究 ， 且 当 
时 正在 IBM 工作 。 第 三 ， 上 个 世纪 70 年 代 是 小 沃 森 将 IBM 的 业务 发 展 
到 顶点 的 时 代 ，IBM 对 基础 研究 的 投入 强度 非常 大 。 如 果 当 时 的 年 轻 人 
能 看 到 这 几 点 ， 又 有 足够 好 的 数学 基础 ( 这 是 当时 机 里 尼克 等 人 挑选 科 
学 家 的 必要 条 件 ) ， 应 该 加 入 IBM， 这 样 一 定 是 前 途 无 量 。 


村 里 尼克 和 波 尔 、 库 殉 以 及 拉 维 夫 对 人 类 的 男 一 大 贡献 是 BCJR 算法 ， 这 
是 今天 数字 通信 中 应 用 最 广 的 两 个 算法 之 一 ( 另 一 个 是 维特 比 算法 ) 。 有 
趣 的 是 ， 这 个 算法 发 明了 20 年 后 ， 才 得 以 广泛 应 用 。IBM 于 是 把 它 列 为 
IBM 有 史 以 来 对 人 类 的 最 大 贡献 之 一 ,并 贴 在 加 州 阿 英 顿 实验 室 ( Amaden 
Research Labs ) 墙 上 。 遗 恰 的 是 BCJR 四 个 人 已 经 全 部 离开 IBM， 有 一 
次 IBM 的 通信 部 门 需 要 用 这 个 算法 ， 还 得 从 斯 坦 福 大 学 请 一 位 专家 去 讲 
解 ， 这 位 专家 看 到 IBM 橱窗 里 的 成 就 榜 ， 感 慨 万 分 。 


1999 年 在 美国 凤凰 城 召 开 的 ICASSP 年 会 上 ， 贾 里 尼克 以 “从 水 门 事件 
到 葛 妮 卡 ， 莱 温 斯 其 ”为 题 做 了 大 会 报告 ， 总 结 了 语音 识别 领域 30 年 的 
成 就 。 重点 回顾 了 当年 IBM 的 工作 , 以 及 后 来 约翰 . 霍 普 金 斯 大 学 的 工作 ， 
也 包括 我 的 工作 。 


很 多 年 后 我 和 阿尔 弗 雷 德 ， 斯 伯 格 特 ( Alfred Spector ) “谈论 为 什么 当 
7 初 是 没有 什么 语音 识别 基础 的 IBM 而 不 是 在 这 个 领域 有 很 长 研究 时 间 的 
se 的。 AT&T 贝尔 实验 室 或 者 卡 内 基 - 梅 隆 大 学 提出 统计 语音 识别 和 语言 处 理 。 
到 总 裁 。 斯 伯 格 特 认 为 这 是 因为 没有 基础 的 IBM 反而 不 受 条 条 框框 的 束缚 。 这 是 “ 
一 个 方面 ， 而 我 强调 的 则 是 ， 大 多 数 时 候 ， 很 多 的 历史 偶然 性 背后 有 着 
它 必 然 的 原因 ， 统 计 自 然 语言 处 理 诞生 于 IBM 看 似 有 些 偶然 ， 但 是 当时 
只 有 IBM 有 这 样 的 计算 能 力 ， 又 有 物质 条 件 同 时 聚集 起 一 大 批 世界 上 最 
聪明 的 头脑 。 
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3 一 位 老人 的 奇迹 


读 过 《浪潮 之 识 》 的 读者 可 能 还 记得 ， 上 个 世纪 80 年 代 末 到 90 年 代 初 ， 
是 IBM 最 艰难 的 时 期 ， 也 是 吝 士 纳 大 量 前 减 科 研 经 费 的 时 期 。 不 幸 的 是 ， 
语音 识别 和 自然 语言 处 理 的 研究 也 在 郭 士 纳 削 减 的 名 单 里 。 贾 里 尼克 和 
IBM 一 批 最 杰出 的 科学 家 在 上 个 世纪 90 年 代 初 离开 了 IBM， 他 们 中 的 
大 多 数 在 华尔街 取得 了 巨大 的 成 功 ， 每 个 人 都 成 为 了 千 万 (可 能 有 的 是 
亿 万 ) 富翁 。 贾 里 尼克 已 经 到 了 退休 的 年 龄 ， 他 的 财富 足以 让 他 等 舒服 
服 地 安 度 晚 年 。 但 他 是 一 个 一 辈子 都 闲 不 下 来 的 人 , 而 且 书 生气 很 浓 ， 
于 是 1994 年 去 约翰 ' 电 普 金 斯 大 学 建立 了 世界 著名 的 CLSP ( Center for 
Language and Speech Processsing ) 实验 室 。 


在 机 里 尼克 到 约翰 起 普 金 斯 大 学 以 前 ， 这 所 以 医学 院 闻名 于 世 的 大 学 
在 工程 领域 学 科 趋 于 老化 ， 早 已 经 没有 了 二 战 前 可 以 和 麻 省 理工 学 院 或 
者 加 州 理 工学 院 比 肩 的 可 能 ， 也 完全 没有 语音 识别 和 自然 语言 处 理 这 样 
的 新 兴学 科 。 贾 里 尼克 从 头 开 始 ， 在 短 短 两 三 年 内 就 将 CLSP 变 成 世界 
一 流 的 研究 中 心 。 他 主要 做 了 两 件 大 事 ,， 两 件 小 事 。 两 件 大 事 是 ,首先 ， 
从 美国 政府 主管 研究 的 部 门 那里 申请 到 了 很 多 研究 经 费 , 然后 , 每 年 夏天 ， 
他 用 一 部 分 经 费 ， 邀 请 世界 上 20-30 名 顶级 的 科学 家 和 学 生 到 CLSP 一 
起 工作 ,使 得 CLSP 成 为 世界 上 语音 和 语言 处 理 的 中 心 之 一 。 两 件 小 事 是 ， 
首先 , 他 招募 了 一 批 当时 很 有 潜力 的 年 轻 学 者 ， 比 如 今天 在 自然 语言 处 理 
方面 颇 负 盛名 的 雅 让 斯 基 和 今天 eBay 的 CTO 布莱尔 。 第 二 ， 他 利用 自 
己 的 影响 力 , 在 暑期 把 他 的 学 生 派 到 世界 上 最 好 的 公司 去 实习 ,通过 这 些 
学 生 的 优异 表现 ， 树 立 起 CLSP 在 培养 人 才 方 面 的 声誉 。10 多 年 后 ， 由 
于 国家 安全 的 需要 ， 美 国政 府 决 定 在 一 所 一 流 大 学 里 建立 一 个 信息 处 理 
的 国家 级 研究 中 心 (Center of Excellence ) ， 要 里 尼克 领导 的 约翰 * 震 
普 金 斯 大 学 的 科学 家 们 ， 在 竞标 中 击败 他 们 在 学 术 界 的 老 对 手 麻 省 理工 
学 院 和 卡 内 基 - 梅 隆 大 学 ， 将 这 个 中 心 落户 到 约翰 - 霍 普 金 斯 大 学 ， 确 
立 了 他 在 这 个 学 术 领 域 的 世界 级 领导 地 位 。 
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8 
巴菲特 每 年 和 一 位 
投资 人 人 共 进 晚餐 ， 
取决 于 娜 位 投资 人 
出 价 高 。 这 个 出 价 
出 巴菲特 捐 给 慈善 
机 构 。 


贾 里 尼克 治学 极为 严谨, 对 学 生 要 求 也 极 严 。 他 淘汰 学 生 的 比例 极 高 ， 
即使 留 下 来 的 ， 毕 业 时 间 也 极 长 。 但 是 ， 另 一 方面 ， 术 里 尼克 也 千 方 百 
计 利 用 自己 的 影响 力 为 学 生 的 学 习 和 事业 提供 便利 。 贾 里 尼克 为 组 里 的 
每 一 位 学 生 提 供 从 进 组 第 一 天 到 离开 组 之 前 最 后 一 天 全 部 的 学 费 和 生活 
费 。 他 还 为 每 一 位 学 生 联 系 实习 机 会 ， 并 保证 每 位 学 生 在 博士 生 阶 段 至 
少 在 大 公司 实习 一 次 。 从 他 那里 拿 到 博士 学 位 的 学 生 ， 全 部 任职 于 著名 
实验 室 ， 比 如 IBM、 微 软 、AT&T 和 Google 的 实验 室 。 为 了 提高 外 籍 学 
生 的 英 诺 水 平 ， 丑 里 尼克 用 自己 的 经 费 为 他 们 请 私人 英语 教师 。 


要 里 尼克 教授 桃李 满 天 下 ， 这 里 面包 括 他 的 学 生 、 过 去 的 下 属 以 及 在 学 
术 界 众多 沿袭 他 的 研究 方法 的 上 晚辈， 比如 Google 研究 院 的 院 长 诺 威 格 
(Peter Norvig ) 和 费尔南多 ， 皮 耶 尔 (Fernando Pereira ) ， 这 些 人 分 
布 在 世界 上 主要 的 大 学 和 公司 的 研究 所 ， 渐 渐 地 形成 了 一 个 学 猜 。 而 可 
里 尼克 是 这 个 学 派 的 精神 领袖 。 


村 里 尼克 教授 在 学 术 上 给 我 最 大 的 帮助 就 是 提高 了 我 在 学 术 上 的 境界 。 
他 告诉 我 最 多 的 是 : 什么 方法 不 好 。 在 这 一 点 上 他 与 股神 巴菲特 给 和 他 
吃饭 的 投资 人 “的 建议 有 异曲同工 之 处 。 巴 非 特 和 那些 投资 人 讲 , 你 们 都 
非常 聪明 , 不 需要 我 告诉 你 们 做 什么 ,我 只 需要 告诉 你 们 不 要 去 做 什么 ( 这 
样 可 以 少 犯 很 多 错误 ) ， 这 些 不 要 做 的 事情 ， 是 巴菲特 从 一 生 的 经 验 教 
训 中 得 到 的 。 贾 里 尼克 会 在 第 一 时 间 告 诉 我 什么 方法 不 好 ， 央 为 在 IBM 
时 他 和 他 的 同事 吃 过 这 方面 的 亏 。 至 于 什么 方法 好 , 他 相信 我 比 他 强 ， 
自己 能 找到 。 所 以 他 节省 了 我 很 多 可 能 做 无 用 功 的 时 间 。 同 时 ， 他 考虑 
问题 的 方法 让 我 终身 受益 。 


贾 里 尼克 生活 俭朴 ,一 辆 老式 丰田 车 开 了 20 多 年 ， 比 组 里 学 生 的 车 都 破 。 
他 每 年 都 邀请 组 里 的 学 生 和 教授 到 家 里 做 客 ， 很 多 已 毕业 的 学 生 也 专程 
赶 来 聚会 。 在 那里 ， 他 不 再 谈论 学 术 问 题 ， 而 会 谈 些 巩俐 的 电影 (他 太 
太 是 哥伦比亚 大 学 电影 专业 的 教授 ) ， 或 是 一 些 科 党 家 的 八卦 ， 比 如 萃 
名 的 信息 论 专家 、 斯 坦 福 大 学 的 科 弗 (Thomas Cover ) 教授 如 何 被 拉 斯 
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韦 加 斯 的 赌 馆 定 为 不 受 欢 迎 的 人 ， 等 等 。 但 是 他 家 里 附会 上 的 食物 实在 
难 吃 ， 无非 是 些 生 胡萝卜 和 芹菜 。 后 来 机 里 尼克 掏 钱 让 系 里 另 一 个 教授 
米 勒 承办 聚会 ， 米 勒 教授 每 次 都 请 专业 大 厨 在 家 做 出 极 丰 盛 的 晚 宣 ， 并 
准备 许多 美酒 ， 从 此 这 种 聚会 就 转移 到 米 勒 家 了 。 


机 里 尼克 的 太太 米兰 娜 是 哥伦比亚 大 学 电影 领域 的 教授 ， 可 能 是 受 他 太 
太 影 响 ， 他 很 旱 就 开始 观看 中 国电 影 。 中 国 早期 走向 世界 的 电影 ， 女 
主角 基本 上 都 是 巩俐 ， 所 以 他 很 奇怪 为 什么 这 么 大 的 国家 只 有 这 人 么 一 
位 女 演 员 。 此 外 ， 慷 里 尼克 早期 对 中 国 的 了 解 就 是 清华 大 学 和 青岛 啤酒 
了 。 他 多 次 把 这 两 个 名 字 搞 混 ， 有 两 次 被 香港 科技 大 学 的 冯 雁 ( Pascale 
Fung ) 教授 抓 住 这 个 错误 。 


杭 里 尼克 说 话 心直口快 ,不 留 余 地 ,在 他 面前 谈论 学 术 一 定 要 十 分 严谨 , 否 
则 很 容易 被 他 抓 住 辫子 。 除 了 刚才 提 到 的 对 语言 学 家 略 有 侦 见 的 评论 ,他 
对 许多 世界 级 的 大 师 都 有 过 很 多 “刻薄 ”但 又 实事 求 是 的 评论 ， 这 些 评 
论 在 业界 广 为 流 传 。 当 然 ， 当 一 个 人 真正 做 出 成 绩 时 ， 贾 里 尼 死 还 是 区 
不 音 惜 他 的 欧美 之 词 的 。1999 年 ， 我 在 欧洲 语言 大 会 Eurospeech 上 获 
得 了 最 佳 论 文 奖 , 贾 里 尼克 在 实验 室 里 一 见 到 我 就 讲 “ 我 们 以 你 为 采 ”( We 
are proud of you. ) ， 并 且 后 来 多 次 提 及 此 事 。 贾 里 尼克 在 40 多 年 的 学 
术 生 涯 中 居然 没有 得 罪 太 多 人 ， 可 以 说 是 一 个 奇迹 。 我 想 这 除了 他 的 成 
就 之 外 ,还 因为 他 是 一 个 公正 的 人 。 


前 面 讲 过 , 贾 里 尼克 是 一 个 亲 不 住 的 人 。 我 经 常 看 到 他 周末 到 实验 室 加 班 。 
他 在 70 多 岁 以 后 依然 头脑 敏锐 ， 并 且 每 天 按时 上 班 。2010 年 9 月 14 日 ， 
他 像 往常 一 样 来 到 办 公 室 ， 但 不 幸 的 是 ， 因 为 心脏 病 发 作 在 办 公 桌 前 过 
世 了 。 我 听 到 这 个 消息 时 又 翡 伤 又 震惊 ， 因 为 几 个 月 前 我 去 约翰 ， 和 霍 普 
金 斯 大 学 看 他 时 ， 他 还 是 好 好 的 。 他 在 别人 退休 、 安 度 晚 年 的 年 龄 开始 
创立 当今 世界 学 术 界 最 大 的 语音 和 语言 处 理 中 心 ， 并 且 工 作 到 了 生命 的 
最 后 一 天 。 很 多 年 前 他 和 我 谈论 学 习 是 一 辈子 的 事情 ， 他 确实 做 到 了 。 
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由 于 他 有 大 量 的 学 生 和 朋友 在 Googie 工作 ， 这 些 人 和 Google 公司 为 约 
坦 ， 和 埠 普 金 斯 大 学 捐赠 了 一 笔 钱 ， 用 于 创立 磋 里 尼克 奖学金 。 有 志 从 事 
这 个 领域 研究 的 大 学 生 ， 可 以 去 申请 这 个 奖学金 “。 
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引擎 的 索引 


在 接 下 来 的 几 章 里 ， 我 们 会 介绍 与 搜索 有 关 的 技术 。 几 年 前 ， 当 这 个 系 
列 在 谷歌 黑板 报 上 登 出 时 ， 很 多 读者 都 很 想 通 过 它 知 道 Google 的 独门 搜 
索 技 术 ， 对 我 只 讲述 简单 的 原理 很 失望 。 这 次 ， 我 可 能 还 是 要 让 一 些 读 
者 失望 了 ， 因 为 我 依然 不 会 讲 得 很 深 。 主 要 有 这 样 几 个 原因 ， 首 先 我 希 
望 这 本 书 的 读者 是 大 众 ,而 不 仅仅 是 搜索 引擎 公司 的 工程 师 。 对 于 前 者 ， 
帮助 他 们 了 解数 学 在 工程 中 的 作用 ， 远 比 了 解 与 他 们 的 工作 无 关 的 算法 
要 有 意义 得 多 。 第 二 ， 技 术 分 为 术 和 道 丙 种， 具体 的 做 事 方 法 是 术 ， 做 
事 的 原理 和 原则 是 道 。 这 本 书 的 目的 是 讲 道 而 不 是 术 。 很 多 具体 的 搜索 
技术 很 快 会 从 独门 绝技 到 普及 , 再 到 落伍 ,追求 术 的 人 一 辈子 工作 很 辛苦 。 
只 有 掌握 了 搜索 的 本 质 和 精髓 才 能 永远 游 办 有 余 。 第 三 ， 很 多 希望 我 介 
绍 “ 术 ”的 人 是 希望 走 捷径 。 但 是 真正 做 好 一 件 事 没有 捷径 ,需要 一 万 
小 时 的 专业 训练 和 努力 。 做 好 搜索 ， 最 基本 的 要 求 是 每 天 分 析 10-20 个 
不 好 的 搜索 结果 ， 累 积 一 段 时 间 才 有 感觉 。 我 在 Google 做 搜索 质量 的 时 
候 每 天 分 析 的 搜索 数量 远 不 止 这 个 ，Google 的 搜索 质量 第 一 技术 负责 人 
阿 米 特 . 辛 格 (Amit Singhal ) 今天 依然 经 常 分 析 这 些 不 好 的 结果 。 但 是 ， 
很 多 做 搜索 的 工程 师 ( 美国 的 、 中 国 的 都 有 ) 做 不 到 这 一 点 ， 总 是 希望 
一 个 算法 、 一 个 模型 就 能 毕 其 功 于 一 役 ， 这 是 不 现实 的 。 
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现在 我 们 回 到 搜索 引擎 这 个 话题 。 搜 索引 擎 的 原理 其 实 非常 简单 ， 建 立 
一 个 搜索 引擎 大 致 需要 做 这 样 几 件 事 : 自动 下 载 尽 可 能 多 的 网 页 ; 建立 
快速 有 效 的 索引 ; 根据 相关 性 对 网 页 进行 公平 准确 的 排序 。 所 以 我 到 腾 
讯 以 后 ， 就 把 搜 搜 所 有 的 搜索 产品 提炼 成 下 载 、 索 引 和 排序 这 三 种 基本 
服务 。 这 就 是 搜索 的 “ 道 ”。 所 有 的 搜索 服务 都 可 以 在 这 三 个 基本 服务 
的 基础 上 很 快 实现 ， 这 就 是 搜索 的 “ 术 ”。 


在 腾讯 内 部 升级 搜索 引擎 时 ， 首 先 要 改进 和 统一 的 就 是 所 有 搜索 业务 的 
索引 ,否则 提高 搜索 质量 就 如 同 浮 沙 建 塔 一 样 不 稳固 。 同 样 我 们 在 这 本 
书 中 介绍 搜索 ， 也 从 索引 出 发 ， 因 为 它 最 基础 ， 也 最 重要 。 


1 布尔 代数 


世界 上 不 可 能 有 比 二 进 制 更 简单 的 计数 方法 了 , 它 只 有 两 个 数字 : 0 和 1。 
从 单纯 数学 的 角度 讲 。 它 甚至 比 我 们 的 十 进 制 更 合理 。 但 是 我 们 人 有 证 
个 手指 ,使 用 起 来 比 二 进 制 (或 者 八进制 ) 方便 得 多 ， 所 以 在 进化 和 文 
明 发 展 过 程 中 人 类 采用 了 十 进 制 。 二 进 制 的 历史 其 实 也 很 旱 ， 中 国 古 代 
的 阴阳 学 说 可 以 认为 是 最 早 二 进 制 的 雏形 。 而 二 进 制作 为 一 个 计数 系统 ， 
公元 前 2-5 世纪 时 由 印度 学 者 完成 ， 但 是 他 们 没有 使 用 0 和 1 计数 。 到 
17 世纪 ， 德 国 伟大 的 数学 家 莱 布 尼 效 (Gottfried Leibniz ) 把 它 完 善 ， 并 
且 用 0 和 1 表示 它 的 两 个 数字 ， 成 为 我 们 今天 使 用 的 二 进 制 。 二 进 制 除 
了 是 一 种 计数 的 方式 外 ， 它 还 可 以 表示 逻辑 的 “是 ”与 “ 非 ”。 这 第 二 
个 特性 在 索引 中 非常 有 用 。 布 尔 运算 是 针对 二 进 制 ， 尤 其 是 二 进 制 第 二 
个 特性 的 运算 ， 它 很 简单 ， 可 能 没有 比 布 尔 运算 更 简单 的 运算 了 。 尽 管 
今天 每 个 搜索 引擎 都 宣称 自己 如 何 聪明 、 多 么 智能 (这 个 词 非常 忽悠 人 ) ， 
其 实 从 根本 上 讲 都 没有 逃 出 布尔 运算 的 框框 。 


布尔 (George Boole) 是 19 世纪 英国 的 -一 位 中 学 数学 老师 ， 还 创办 
过 一 所 中 学 。 后 来 在 爱尔兰 科 克 (Cork ) 的 一 所 学 院 当 教授 。 生 前 没 
有 人 认为 他 是 数学 家 ， 虽 然 他 曾经 在 剑桥 大 学 数学 杂志 (Cambridge 
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Mathematical Journal ) 上 发 表 过 论文 。( 英国 男 一 位 生前 没有 被 公认 
为 科学 家 的 是 著名 物理 学 家 焦耳 ， 虽然 他 生前 已 经 是 英国 皇家 科学 院 院 
士 ， 但 是 他 的 公认 身份 是 啤酒 痪 。 ) 布尔 在 工作 之 余 ， 讶 欢 阅 读数 学 论 
车， 思考 数学 问题 。1854 年 ， 布 尔 的 《思维 规律 》 (An Investigation of 
the Laws of Thought, on which are founded the Mathematical Theories of 
Logic and Probabilities ) 一 书 ,第 一 次 向 人 们 展示 了 如 何 用 数学 的 方法 解 
决 逻辑 问题 ,在 此 之 前 ,人们 普 侦 的 认识 是 数学 和 逻辑 是 两 个 不 同 的 学 科 ， 
今天 联合 国教 科 文 组 织 依然 把 它们 严格 分 开 。 


布尔 代数 简单 得 不 能 再 简单 了 。 运 算 的 元 素 只 有 两 个 : 1 (TRUE， 真 ) 
和 0 《FALSE, 假 ) 。 基 本 的 运算 只 有 “与 ”(AND ) 、“ 或 ” (OR) 
和 “ 非 ”(NOT ) 三 种 (后 来 发 现 ， 这 三 种 运算 都 可 以 转换 成 “与 
非 ”AND-NOT 一 种 运算 ) 。 全 部 运算 只 用 下 列 几 张 真 值 表 就 能 完全 描 
述 清楚 。 


表 8.1 与 运算 真 值 表 


AND 1 0 
1 1 0 
0 0 0 


表 8.1 说 明 ， 如 果 AND 运算 的 两 个 元 素 有 一 个 是 0， 则 运算 结果 总 是 0。 
如 果 两 个 元 素 都 是 1， 运算 结果 是 1。 例 如 ，“ 太 阳 从 西边 升 起 ”这 个 判 
断 是 假 的 (0) ，“ 水 可 以 流动 ”这 个 判断 是 真 的 (1) ,那么 ， “太阳 
从 西边 升 起 并 且 水 可 以 流动 ”就 是 假 的 (0) 。 


表 8.2 或 运算 真 值 表 


OR 1 0 


表 8.2 说 明 ， 如 果 OR 运算 的 两 个 元 素 有 一 个 是 1， 则 运算 结果 总 是 1。 
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如 果 两 个 元 素 神 是 0， 则 运算 结果 是 0。 比 如 说 ，“ 张 三 是 比赛 第 一 名 ” 
这 个 结论 是 假 的 (0) ，“ 李 四 是 比赛 第 一 名 ”是 真 的 (1) ， 那么“ 张 
三 或 者 李 四 是 第 一 名 ”就 是 真 的 (1 ) 。 


表 8.3 ” 非 运算 真 值 表 


表 8.3 说 明 ，NOT 运算 把 1 变 成 0, 把 0 变 万 1。 比如， 如果“ 象牙 是 白 
的 ”是 真 的 (1) ,那么 “象牙 不 是 白 的 ”必定 是 假 的 (0) 。 


读者 也 许 会 问 这 人 么 简单 的 理论 能 解决 什么 实际 问题 。 和 布尔 同时 代 的 数 
学 家 们 也 有 同样 的 疑问 。 事 实 上 ， 在 布尔 代数 提出 后 80 多 年 里 ， 它 确实 
没有 什么 像样 的 应 用 ， 直 到 1938 年 香农 在 他 的 硕士 论文 中 指出 用 布尔 代 
数 来 实现 开关 电路 ， 才 使 得 布尔 代数 成 为 数字 电路 的 基础 。 所 有 的 数学 
和 逻辑 运算 ， 加 、 减 、 乘 、 除 、 乘 方 、 开 方 等 等 ， 全 都 能 转换 成 二 值 的 
布尔 运算 。 我 们 在 第 一 章 讲 到 ， 数 学 的 发 展 实 际 上 是 不 断 地 抽象 和 概括 
的 过 程 ， 这 些 抽 象 了 的 方法 看 似 离 生活 越 来 越 远 ， 但 是 它们 最 终 能 找到 
适用 的 地 方 ， 布 尔 代数 便 是 如 此 。 


现在 看 看 文献 检索 和 布尔 运算 的 关系 。 对 于 一 个 用 户 输 入 的 关键 词 ， 搜 
索引 擎 要 判断 每 篇 文献 是 否 含 有 这 个 关键 词 ， 如 有 果 一 篇 文献 含有 它 ， 我 
们 相应 地 给 这 篇 文献 一 个 逻辑 值 -一 真 (TRUE 或 1) ， 否则， 给 一 个 
逻辑 值 -一 假 (FALSE 或 0) 。 比 如 要 找 有 关 原 子 能 应 用 的 文献 ， 但 并 
不 想 知 道 如 何 造 原子 弹 。 可 以 这 样 写 一 个 查询 语句 “原子 能 AND 应 用 
AND (NOT 原子 弹 )”， 表示 符 合 要 求 的 文献 必须 同时 满足 三 个 条 件 : 


包含 原子 能 ， 包 含 应 用 ， 不 包 会 原子 弹 


一 篇 文献 对 于 上 面 每 一 个 条 件 ， 都 有 一 个 TRUE 或 者 FALSE 的 答案 。 根 
据 上 述 真 值 表 就 能 算出 每 篇 文献 是 和 否 是 要 找 的 。 这 样 逻 辑 推理 和 计算 就 
合 二 为 一 了 。 
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布尔 代数 对 于 数学 的 意义 等 同 于 量子 力学 对 于 物理 学 的 意义 ， 它 们 将 我 
们 对 世界 的 认识 从 连续 状态 扩展 到 离散 状态 。 在 布尔 代数 的 “世界 ”里 ， 
万 物 都 是 可 以 量子 化 的 ， 从 连续 的 变 成 一 个 个 的 , 它们 的 运算 “与 、 或 、 
非 ” 也 就 和 传统 的 代数 运算 完全 不 同 了 。 现 代 物 理 的 研究 成 果 表 明 ， 我 
们 的 世界 实 实在 在 是 量子 化 的 而 不 是 连续 的 。 我 们 的 宇宙 的 基本 粒子 数 
目 是 有 限 的 “， 而 且 远 比 古 高 尔 (10”) 要 小 得 多 。 


2 索引 


大 部 分 使 用 搜索 引擎 的 人 都 会 吃惊 为 什么 它 能 在 零点 零 几 秒 钟 找到 成 干 
上 万 其 至 上 亿 的 搜索 结果 。 显 然 ， 如果 是 扫描 所 有 的 文本 ,计算机 扫 
描 的 速度 再 快 也 不 可 能 做 到 这 一 点 ， 这 里 面 一 定 暗 准 技巧 。 这 个 技巧 
就 是 建 索 引 。 这 就 如 同 我 们 科技 读物 背后 的 索引 ， 或 者 图 书馆 的 索引 。 
Google 有 一 道 面试 产品 经 理 的 考题 ， 就 是 “如 何 向 你 的 奶奶 解释 搜索 引 
擎 ”。 大 部 分 候选 人 都 是 试图 从 互联 网 、 搜 索 等 等 产品 的 技术 层面 给 出 
解释 ， 这 道 题 基 本 通 不 过 。 好 的 回答 是 拿 图 书馆 的 索引 卡片 做 类 比 。 每 
个 网 站 就 像 图 书馆 里 的 一 本 书 , 我 们 不 可 能 在 图 书馆 书架 上 一 本 本 地 找 ， 
而 是 要 通过 搜索 卡片 找到 它 的 位 置 ， 然 后 直接 去 书架 上 拿 。 


图 书馆 的 索引 卡片 当然 无 法 进行 复杂 的 逻辑 运算 。 但 是 ， 当 信息 检索 进 
入 计算 机 时 代 后 ， 图 书 的 索引 便 不 再 是 卡片 ， 而 是 基于 数据 库 的 。 数 据 
库 的 查询 语句 (SQL ) 支持 各 种 复杂 的 逻辑 组 合 ， 但 是 背后 的 基本 原理 
是 基于 布尔 运算 的 ， 至 今 如 此 。 早 期 的 文献 检索 查询 系统 ， 严 格 要 求 查 
询 语句 符合 布尔 运算 。 相 比 之 下 ,今天 的 搜索 引擎 要 聪明 得 多 ， 它 会 自 
动 把 用 户 的 查询 语句 转换 成 布尔 运算 的 算式 。 但 是 基本 的 原理 没有 什么 
不 同 。 


最 简单 的 索引 的 结构 是 用 一 个 很 长 的 二 进 制 数 表示 一 个 关键 字 是 否 出 现 
在 每 篇 文献 中 。 有 多 少 篇 文献 ， 就 有 多 少 位 数 ， 每 一 位 对 应 一 篇 文献 ，1 
代表 相应 的 文献 有 这 个 关键 字 ，0 代表 没有 。 比 如 关键 字 “ 原 子 能 ”对 应 


1 

据 http://www. 
universetoday. 
com/36302/atoms- 
in-the-universe/ 估 
计 宇 宙 中 原子 的 数 
量 是 10”-102， 如 
果 按 照 最 小 的 基本 
粒子 (次 克 、 电子 、 
光子 等 ) 统计 ， 再 
考虑 到 暗物质 和 由 
能 量 ， 折 算 下 来 不 
应 该 超过 10”。 
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2 
实际 数量 比 这 个 多 。 


的 二 进 制 数 是 0100100011000001...， 表 示 第 二 、 第 五 、 第 九 、 第 十 、 第 
十 六 篇 文献 包含 这 个 关键 字 。 上 述 过 程 其 实 就 是 将 一 篇 篇 千差万别 的 文 
本 进行 量子 化 的 过 程 。 注意, 这 个 二 进 制 数 非常 之 长 。 同样 , 假定 “应 用 ” 
对 应 的 二 进 制 数 是 0010100110000001..., 那么 要 找到 同时 包含 “原子 能 ” 
和 “应 用 ”的 文献 时 ， 只 要 将 这 两 个 二 进 制 数 进行 布尔 运算 AND。 根 据 
上 面 的 真 值 表 , 我 们 知道 运算 结果 是 0000100000000001..., 表示 第 五 篇 、 
第 十 六 篇 文献 满足 要 求 。 


注意 ,计算 机 做 布尔 运算 是 非常 非常 快 的。 现在 最 便宜 的 微机 都 可 以 在 
一 个 指令 周期 进行 32 位 布尔 运算 ， 一 秒 钟 进行 数 十 亿 次 以 上 。 当 然 ， 由 
于 这 些 二 进 制 数 中 的 绝 大 部 分 位 数 都 是 零 ， 只 需要 记录 那些 等 于 1 的 位 
数 即 可 。 于 是 ， 搜 索引 擎 的 索引 就 变 成 了 一 张大 表 : 表 的 每 一 行 对 应 一 
个 关键 词 ， 而 每 一 个 关键 词 后 面 跟着 一 组 数字 ， 是 包 售 该 关键 词 的 文献 


序号 。 


对 于 互联 网 的 搜索 引擎 来 讲 ， 每 一 个 网 页 就 是 一 个 文献 。 互 联网 的 网 页 
数量 是 把 大 的 , 网 络 中 所 用 的 词 也 非常 非常 多 。 因此 , 这 个 索引 是 巨大 的 ， 
在 万 亿 字 节 这 个 量 级 。 早 期 的 搜索 引擎 ( 比如 AltaVista 以 前 的 所 有 搜索 
引擎 ) ， 由 于 受 计算 机 速度 和 容量 的 限制 ， 只 能 对 重要 的 关键 的 主题 词 
建立 索引 。 至 今 很 多 学 术 末 志 还 要 求 作 者 提供 3-5 个 关键 词 。 这 样 所 有 
不 常见 的 词 和 太 常 见 的 虚词 就 找 不 到 了 。 现 在 ,为 了 保证 对 任何 搜索 都 
能 提供 相关 的 网 页 , 主要 的 搜索 引擎 都 是 对 所 有 的 词 进行 索引 。 但 是 ， 
这 在 工程 上 却 是 一 件 很 有 挑战 性 的 事情 。 


假如 互联 网 上 有 100 亿 ” (10”) 个 有 意义 的 网 页 ， 而 词汇 表 的 大 小 是 30 
万 (也 是 保守 估计 的 数字 ) , 那么 这 个 索引 的 大 小 至 少 是 100 亿 x30 万 = 
3 000 万 亿 。 考虑 到 大 多 数 词 只 出 现在 一 部 分 文本 中 , 压缩 比 为 100:1, 也 
是 30 万 亿 的 量 级 。 为 了 网 页 排名 方便 , 索引 中 还 需 存 有 大 量 附加 信息 , 诸 
如 每 个 词 出 现 的 位 置 、 次 数 等 等 。 因此 , 整个 索引 就 变 得 非常 之 大 , 显然 ， 
这 不 是 一 台 服 务 器 的 内 存 能 够 存 下 的 。 所 以 ， 这 些 索 引 需 要 通过 分 布 式 
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的 方式 存储 到 不 同 的 服务 器 上 。 普 遍 的 做 法 就 是 根据 网 页 的 序号 将 索引 
分 成 很 多 份 ( Shards ), 分 别 存 储 在 不 同 的 服务 器 中 。 每 当 接 受 一 个 查询 时 ， 
这 个 查询 就 被 分 发 到 许 许多 多 服务 器 中 ， 这 些 服务 器 同时 并 行 处 理 用 户 
请 求 ， 并 把 结果 送 到 主 服 务 器 进行 合并 处 理 ， 最 后 将 结果 返回 给 用 户 。 


随 着 互联 网 上 内 容 的 增加 ， 尤 其 是 互联 网 2.0 时 代 ， 用 户 产生 的 内 容 越 来 . 
越 多 ， 即 使 是 Google 这 样 的 服务 器 数量 近乎 无 限 的 公司 ， 也 感到 了 数据 
增加 的 压力 。 因 此 ， 根 据 需 要 网 页 的 重要 性 、 质 量 和 访问 的 频率 建立 常 
用 和 和 非常 用 等 不 同 级 别 的 索引 。 常 用 的 索引 需要 访问 速度 快 ， 附 加 的 信 
息 多 ， 更 新 也 要 快 ; 而 非常 用 的 要 求 就 低 多 了 。 但 是 不 论 搜索 引擎 的 索 
引 在 工程 上 如 何 复 杂 ， 原 理 上 依然 非常 简单 ， 即 等 价 于 布尔 运算 。 


3 小 结 


布尔 代数 非常 简单 ， 但 是 对 数学 和 计算 机 发 展 的 意义 重大 ， 它 不 仅 把 逻 
辑 和 数学 合 二 为 一 ， 而 且 给 了 我 们 一 个 全 新 的 视角 看 得 世 界 , 开创 了 今 
天 数字 化 的 时 代 。 在 此 ， 让 我 们 用 伟大 的 科学 家 牛顿 的 一 句 话 来 结束 这 
一 章 ,“( 人 们 ) 发 觉 真 理 在 形式 上 从 来 是 简单 的 , 而 不 是 复 洒 和 含混 的 。” 
( Truth is ever to be found in simplicity, and not in the multiplicity and 


confusion of things. ) 
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第 9 章 图 论 和 网 络 疏 虫 


离散 数学 是 当代 数学 的 一 个 重要 分 支 ， 也 是 计算 机 科学 的 数学 基础 。 它 包 
括 数 理 逻 辑 、 集 合 论 、 图 论 和 近世 代数 四 个 分 支 。 数 理 逻 辑 基 于 布尔 运算 ， 
前 面 已 经 介绍 过 了 。 这 里 介绍 图 论 和 互联 网 自动 下 载 工 具 网 络 息 忠 之 间 的 
关系 。 顺 便 提 一 句 ， 用 Google Trends 来 搜索 一 下 “离散 数学 ”这 个 词 ， 
可 以 发 现 不 少 有 趣 的 现象 。 比 如 ， 武 汉 、 蚂 尔 滨 、 合 肥 和 长 沙 这 些 城市 对 
这 一 数学 主题 最 有 兴趣 。 


第 8 章 谈 到 了 如 何 建立 搜索 引擎 的 索引 ， 那 么 如 何 自动 下 载 互联 网 所 有 的 
网 页 呢 ? 这 需要 用 到 图 论 中 的 过 历 〈Traverse ) 算法 。 


1 图 论 


图 论 的 起 源 可 追溯 到 大 数学 家 欧 拉 《Leonhard Euler ) 诞生 的 那个 年 代 。 
1736 年 ， 欧 拉 来 到 普鲁士 的 机 尼斯 堡 (Konigsberg， 大 哲学 家 康德 的 故 
乡 ， 现 在 是 俄罗斯 的 加 里 宁 格 勒 ) ， 发现 当地 居民 有 一 项 消 遗 活动 ， 就 
是 试图 将 下 图 中 的 每 座 桥 恰好 走 过 一 遍 并 回 到 原 出 发 点 ， 从 来 没有 人 成 
功 过 。 欧 拉 证 明了 这 种 走 法 是 不 可 能 的 ， 并 写 了 一 篇 论文 ,一般 认为 这 
是 图 论 的 开始 。 至 于 为 什么 不 可 能 ， 我 们 在 延伸 阅读 里 会 介绍 。 
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9.1 哥 尼 斯 堡 的 七 座 桥 


图 论 中 所 讨论 的 图 由 一 些 节 点 和 连接 这 些 节 点 的 弧 组 成 。 如 果 我 们 把 中 
国 的 城市 当成 节点 ， 连 接 城 市 的 国道 当成 弧 ， 那 么 全 国 的 公路 干线 网 就 
是 图 论 中 所 说 的 图 。 关 于 图 的 算法 有 很 多 , 但 最 重要 的 是 图 的 遍历 算法 ， 
也 就 是 如 何 通 过 强 访 问 图 的 各 个 节点 。 以 中 国 公路 网 为 例 ， 我 们 从 北京 
出 发 ,访问 所 有 的 城市 。 可 以 先 看 一 看 北京 和 哪些 城市 直接 相连 ， 比 如 
说 和 和 天津、 济南、 石家庄、 沈阳 、 呼 和 浩特 直接 相连 〈 图 9.2 中 的 黑色 线 
条 ) 。 当 然 ， 这 些 城 市 之 间 还 可 以 有 其 他 的 连接 ( 图 9.2 中 的 灰色 线 ) 。 





9.2 ”中国 公 路 图 


第 9 章 图 论 和 网 络 私 虫 中 91 


从 北京 出 发 , 可 以 依次 访问 这 些 城市 。 先 访问 那些 直接 和 北京 相连 的 城市 ， 
比如 天 津 .济南 等 。 然 后 看 看 都 有 哪些 城市 和 这 些 已 经 访问 过 的 城市 相连 ， 
比如 说 北戴河 、 秦 皇 岛 与 天 津 相连 , 青岛 、 烟 台 、 南 京 和 济南 相连 ,太原 、 
郑州 和 石家庄 相连 等 ( 图 9.2 中 的 虚线 ) ， 而 后 再 一 次 访问 北戴河 这 些 城 
市 , 直到 把 中 国 所 有 的 城市 都 访问 过 一 遍 为 止 。 这 种 图 的 遍历 算法 称 为 广 
度 优 先 搜索 ”( Breadth-First Search, 简称 BFS ) , 因为 它 先 要 尽 可 能 “ 广 ” 
地 访问 每 个 节点 所 直接 连接 的 其 他 节点 。 见 图 9.3: 


mm) 
1 人 时 和 
浩特 4 


Cam) 北戴河 | 12 


® © 
6 
| 
7 


. 
图 9.3 广度 优先 遍历 ， 图 中 的 数字 表示 人 遍历 的 次 序 


另外 还 有 一 种 策略 是 从 北京 出 发 ， 随 便 找 一 个 相连 的 城市 ， 作 为 到 下 一 
个 要 访问 的 城市 ， 比 如 说 济南 ， 然 后 从 济南 出 发 到 下 一 个 城市 ， 比 如 说 
南京 , 再 访问 从 南京 出 发 的 城市 , 一 直 走 到 头 , 直到 找 不 到 更 远 的 城市 了 ， 
再 往 回 找 , 看 看 中 间 是 否 有 尚未 访问 的 城市 。 这 种 方法 叫 “深度 优先 搜索 - 

( Depth-First Search， 人 简称 DFS ) ， 因 为 它 是 一 条 路 走 到 黑 。 下 图 是 采 
用 深度 优先 搜索 算法 时 遍历 整个 图 的 次 序 。 
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四 ， 
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这 两 种 方法 都 可 以 保证 访问 到 全 部 的 城市 。 当然 , 不 论 采 用 哪 种 方法 ， 
都 应 该 用 一 个 小 本 本 记录 已 经 访问 过 的 城市 ， 避 免 同 一 个 城市 访问 多 
次 或 者 漏 掉 哪个 城市 。 


| (x ) 


图 9.4 深度 优先 遍历 ， 省 个 城市 的 访问 次 序 


2 ”网络 息 虫 


现在 看 着 图 论 的 遍历 算法 和 搜索 引擎 的 关系 。 互 联网 虽然 很 复杂 ， 但 是 
说 罕 了 其 实 就 是 一 张大 图 而 已 -一 可 以 把 每 一 个 网 页 当 作 一 个 节点 ， 把 
那些 超 链接 ( Hyperlinks ) 当 作 连接 网 页 的 绝 。 很 多 读者 可 能 已 经 注意 到 ， 
网 页 中 那些 蓝 色 、 带 有 下 划 线 的 文字 背后 其 实 藏 着 对 应 的 网 址 ， 当 你 点 
击 的 时 候 ， 浏览 器 通过 这 些 隐 含 的 网 址 跳 转 到 相应 的 网 页 。 这 些 隐 含 在 
文字 背后 的 网 址 称 为 “ 超 链 接 ”。 有 了 超 链 接 ， 我 们 可 以 从 任何 一 个 网 
页 出 发 ， 用 图 的 饥 历 算法 ， 自 动 地 访问 到 每 一 个 网 页 并 把 它们 存 起 来 。 
完成 这 个 功能 的 程序 叫做 阅 络 爬虫 (Web Crawlers ) ,或 者 在 一 些 文献 
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中 称 为 “机 器 人 ”(Robot)。 世 界 上 第 一 个 网 络 爬 虫 是 由 麻 省 理工 学 院 
的 学 生 马 休 …. 格雷 ( Matthew Gray ) 在 1993 年 写成 的 。 他 给 自己 的 程 
序 起 了 个 名 字 叫 “互联 网 漫游 者 ” (WWW Wanderer ) 。 以 后 的 网 络 假 
虫 越 号 越 复 杂 , 但 原理 是 一 样 的 。 


我 们 来 看 看 网 络 念 虫 如 何 下 载 整个 互联 网 。 假 定 从 一 家 门户 网 站 的 首页 
出 发 ， 先 下 载 这 个 网 页 ， 然 后 通过 分 析 这 个 网 页 可 以 找到 页 面 里 的 所 
有 超 链 接 ， 也 就 等 于 知道 了 这 家 门户 网 站 首页 所 直接 链接 的 全 部 网 页 ， 
诸如 雅虎 邮件 、 雅 虎 财经 、 雅 虎 新 闻 等 。 接 下 来 访问 、 下 载 并 分 析 这 家 
门户 网 站 的 邮件 等 网 页 ， 又 能 找到 其 他 相连 的 网 页 。 让 计算 机 不 停 地 做 
下 去 ， 就 能 下 载 整 个 的 互联 网 。 当 然 ， 也 要 记载 哪个 网 页 下 载 过 了 ， 以 
免 重复 。 在 网 络 息 虫 中 ,使 用 一 个 称 为 “ 险 希 表 ”〈 Hash Table ) 的 列 
表 而 不 是 一 个 记事 本 记录 网 页 是 否 下 载 过 的 信息 。 


现在 的 互联 网 非常 庞大 ， 不 可 能 通过 一 台 或 几 台 计算 机 服务 六 就 能 完成 
下 载 任 务 。 比 如 Google 在 2010 年 时 整个 的 索引 大 小 大 约 有 5000 亿 个 网 
页 ， 即 使 更 新 最 频繁 的 基础 索引 也 有 100 亿 个 网 页 ， 假如 下 载 一 个 网 页 
需要 一 秒 钟 ， 下载 这 100 亿 个 网 页 则 需要 317 年 ， 如 果 下 载 5 000 亿 个 网 
页 则 需要 16000 年 左右 ,是 我 们 人 类 有 文字 记载 历史 的 三 倍 时 间 。 因 此 ， 
一 个 商业 的 网 络 息 虫 需要 有 成 干 上 万 个 服务 器 ， 并 且 通 过 高 速 网 络 连接 
起 来 。 如 何 建立 起 这 样 复杂 的 网 络 系统 ， 如 何 协 调 这 些 服务 器 的 任务 ， 
就 是 网 络 设计 和 程序 设计 的 艺术 了 。 


3 ”延伸 阅 谈 : 图 论 的 两 点 补充 说 明 


3.1 欧 拉 七 桥 问 题 的 证 明 


把 每 一 块 连通 的 陆地 作为 一 个 顶点 ， 每 一 座 桥 当成 图 的 一 条 边 ， 那 么 就 
把 哥 尼斯 堡 的 七 座 桥 抽象 成 下 面 的 图 。 
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C 
9.5 哥 尼 斯 堡 七 桥 的 抽象 图 


对 于 图 中 的 每 一 个 顶点 ， 它 相连 的 边 的 数量 定义 为 它 的 度 ( Degree ) 。 


定理 : 如 果 一 个 图 能 够 从 一 个 顶点 出 发 ， 每 条 边 不 重复 地 遍历 一 遍 加 到 
这 个 顶 成 ， 那 么 每 一 顶点 的 度 必须 为 偶数 。 


证 明 : 假如 能 够 遍历 图 的 每 一 条 边 各 一 次 ， 那 么 对 于 每 个 顶点 ， 需 要 从 
某 条 边 进 入 顶点 ， 同 时 从 另 一 条 边 离 开 这 个 顶点 。 进 入 和 离开 顶点 的 次 
数 是 相同 的 ， 因 此 每 个 顶点 有 多 少 条 进入 的 边 ， 就 有 多 少 条 出 去 的 边 。 
也 就 是 说 ， 每 个 顶点 相连 的 边 的 数量 是 成 对 出 现 的 ， 即 每 个 顶点 的 度 都 
是 偶数 。 


在 图 9.5 中 , 有 多 个 顶点 的 度 为 奇数 ,因此 , 这 个 图 无 法 从 一 个 顶点 出 发 ， 
遍历 每 条 边 各 一 次 然后 回 到 这 个 顶点 。 


3.2 ”构建 网 络 假 虫 的 工程 要 点 


“如 何 构建 一 个 网 络 朴 虫 ” 是 我 在 Google 最 常 使 用 的 一 道 面试 题 。 因 为 
我 经 常 使 用 ， 一 些 面试 者 其 实 知道 这 个 事实 。 但 是 我 依然 使 用 ， 而 且 依 
然 可 以 有 效 地 考察 出 一 个 候选 人 的 计算 机 科学 理论 基础 、 算 法 能 力 和 他 
的 工程 素养 。 这 道 题 漂 亮 的 地 方 在 于 它 没有 完全 对 和 错 的 答案 ， 但 是 有 
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好 和 不 好 、 可 行 和 不 可 行 的 答案 , 而且 可 以 不 断 地 往 深 处 问 下 去 。 一 个 
好 的 候选 人 不 需要 做 过 网 络 爬 虫 也 能 很 好 回答 这 道 题 ， 而 那些 仅仅 有 热 
行 能 力 的 三 流 工 程 师 ， 即 使 在 做 网 络 疏 虫 的 工作 ， 里 面 很 多 地 方 也 不 会 
考虑 全 面 。 


网 络 不 虫 在 工程 实 更 上 要 考虑 的 细节 非常 多 ， 其 中 大 的 方面 有 这 样 几 点 : 
首先 ， 用 BFS 还 是 DES? 


虽然 从 理论 上 讲 ， 这 两 个 算法 (在 不 考虑 时 间 因 素 的 前 提 下 ) 都 能 够 在 
大 致 相同 的 时 间 里 “ 爬 下 ”整个 “静态 ”互联 网 上 的 内 容 ， 但 是 工程 上 
的 两 个 假设 -一 不 考虑 时 间 因 素 .互联 网 静态 不 变 , 都 是 现实 中 做 不 到 的 。 
搜索 引擎 的 网 络 疏 虫 问题 更 应 该 定义 成 “如 何在 有 限时 间 里 最 多 地 疏 下 
最 重要 的 网 页 ”。 显 然 各 个 网 站 最 重要 的 网 页 应 该 是 它 的 首页 。 在 最 极 
端的 情况 下， 如果 把 虫 非常 小 ， 只 能 下 载 非常 有 限 的 网 页 ， 那 么 应 该 下 
载 的 是 所 有 网 站 的 首页 ， 如 果 把 爬虫 再 扩大 些 ， 应 该 伶 下 从 首页 直接 链 
接 的 网 页 ( 就 如 同和 北京 直接 相连 的 城市 ) ， 因 为 这 些 网 页 是 网 站 设计 
者 自己 认为 相当 重要 的 网 页 。 在 这 个 前 提 下 ， 显 然 BFS 明显 优 于 DEFS。 
事实 上 在 搜索 引擎 的 候 忠 里 ,虽然 不 是 简单 地 采用 BFS, 但 是 先 息 哪个 
网 页 ， 后 的 哪个 网 页 的 调度 程序 ， 原 理 上 基本 上 是 BFS。 





那么 是 否 DFS 就 不 使 用 了 呢 ? 也 不 是 这 样 的 。 这 是 和 有 疏 虫 的 分 布 式 结 
梅 以 及 网 络 通信 的 握手 成 本 有 关 。 所 谓 “ 握 手 ” 就 是 指 下 载 服务 器 和 
网 站 的 服务 器 建立 通信 的 过 程 。 这 个 过 程 需 要 额外 的 时 间 ( Overhead 
Time ) ， 如 果 气 手 的 次 数 太 多 ,下载 的 效率 就 降低 了 。 实 际 的 网 络 息 
虫 都 是 一 个 由 成 百 上 千 甚 至 成 千 上 万 台 服 务 器 组 成 的 分 布 式 系统 。 对 于 
某 个 网 站 ， 一 般 是 由 特定 的 一 台 或 者 几 台 服务 器 专门 下 载 。 这 些 服务 器 
下 载 完 一 个 网 站 ， 然 后 再 进入 下 一 个 网 站 ， 而 不 是 每 个 网 站 先 轮流 下 载 
5%， 然 后 再 回 过 头 来 下 载 第 二 批 。 这 样 可 以 避免 握手 的 次 数 太 多 。 如 果 
是 下 载 完 第 一 个 网 站 再 下 载 第 二 个 ， 那 么 这 又 有 点 像 DFS， 虽 然 下 载 同 
一 个 网 站 (或 者 子 网 站 ) 时 ， 还 是 需要 用 BFS 的 。 


1 

是 节点 数 硬 V 和 边 的 
数量 6 之 和 的 线性 函 
数 ， 即 0O(Y + )。 
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总 结 起 来 ， 网 络 疏 虫 对 网 页 遍历 的 次 序 不 是 简单 的 BFS 或 者 DFS， 而 是 
有 一 个 相对 复杂 的 下 载 优先 级 排序 的 方法 。 管 理 这 个 优先 级 排序 的 子 系 
统一 般 称 为 调度 系统 ( Scheduler ) 。 由 它 来 决定 当 一 个 网 页 下 载 完 成 后 ， 
接 下 来 下 载 哪 一 个 。 当 然 在 调度 系统 里 需要 存储 那些 已 经 发 现 但 是 尚未 
下 载 的 网 页 的 URL, 它们 一 般 存 在 一 个 优先 级 队列 ( Priority Queue ) 里 。 
而 用 这 种 方式 思 历 整个 互联 网 , 在 工程 上 和 BFS 更 相似 。 因此, 在 扑 虫 中 ， 
BFS 的 成 分 多 一 些 。 


第 二 ,页面 的 分 析 和 URL 的 提取 。 


在 上 一 节 中 提 到 ， 当 一 个 网 页 下 载 完 成 后 ， 和 需要 从 这 个 网 页 中 提取 其 中 
的 URL， 把 它们 加 入 到 下 载 的 队列 中 。 这 个 工作 在 互联 网 的 早期 不 难 ， 
因为 那 时 的 网 页 都 是 直接 用 HTML 诺言 书写 的 。 那 些 URL 都 以 文本 的 
形式 放 在 网 页 中 ， 前 后 都 有 明显 的 标识 ， 很 容易 提取 出 来 。 但 是 现在 很 
多 URL 的 提取 就 不 那么 直接 了 ， 因 为 很 多 网 页 如 今 是 用 一 些 脚 本 语言 
( 比如 JavaScript ) 生成 的 。 打 开 网 页 的 源 代码 ，URL 不 是 直接 可 见 的 文 
本 ， 而 是 运行 这 一 段 脚本 后 才能 得 到 的 结果 。 因 此 ， 网 络 息 虫 的 页 面 分 
析 就 变 得 复杂 很 多 ， 它 要 模拟 浏览 器 运行 一 个 网 页 ， 才 能 得 到 里 面 隐 含 
的 URL。 有 些 网 页 的 脚本 写 得 非常 不 规范 ， 以 至 于 解析 起 来 非常 困难 。 
可 是 , 这 些 网 页 还 是 可 以 在 浏览 器 中 打开 ,说 明 浏 览 器 可 以 解析 。 因 此 ， 
需要 做 浏览 器 内 核 的 工程 师 来 写 网 络 怜 虫 中 的 解析 程序 ， 可 惜 出 色 的 浏 
览 器 内 核 工 程 师 在 全 世界 数量 并 不 多 。 因 此 , 知 你 发 现 一 些 网 页 明明 存在 ， 
但 搜索 引擎 就 是 没有 收 永 ， 一 个 可 能 的 原因 是 网 络 肘 虫 中 的 解析 程序 没 
能 成 功 解析 网 页 中 不 规范 的 脚本 程序 。 


第 三 ， 记 录 哪 些 网 页 已 经 下 载 过 的 小 本 本 一 一 URL 表 。 


在 互联 网 上 ,一 个 网 页 可 能 被 多 个 网 页 中 的 超 链 按 所 指向 ， 即 在 互联 网 
这 张大 图 上 ， 有 很 多 绝 ( 链接 ) 可 以 走 到 这 个 节点 〈 网 页 ) 。 这 样 在 遍 
历 互 联网 这 张 图 的 时 候 ， 这 个 网 页 可 能 被 多 次 访问 到 。 为 了 防止 一 个 网 
页 被 下 载 多 次 ， 需 要 在 一 个 哈 希 表 中 记录 哪些 网 页 已 经 下 载 过 。 再 遇 到 
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这 个 网 页 时 ， 我 们 就 可 以 跳 过 它 。 采 用 哈 希 表 的 好 处 是 ， 判 断 一 个 网 页 
的 URL 是 否 在 表 中 ， 平 均 只 需要 一 次 《或 者 略 多 的 ) 查找 。 当 然 ， 如 果 
遇 到 没有 下 载 的 网 页 ， 除 了 下 载 该 网 页 ， 还 需要 在 下 载 完成 后 ， 将 这 个 
网 页 的 URL 存 到 哈 希 表 中 ， 这 个 操作 对 哈 希 表 来 讲 也 非常 简单 。 在 一 台 
下 载 服务 器 上 建立 和 维护 一 张 哈 希 表 并 不 是 难事 。 但 是 如 打 同 时 有 上 和 于 
台 服 务 器 一 起 下 载 网 页 ， 维 护 一 张 统一 的 哈 希 表 就 不 是 一 件 容 易 的 事情 
了 。 首 先 ， 这 张 哈 希 表 会 大 到 一 台 服 务 器 存储 不 下 。 其 次 ， 由 于 每 个 下 
载 服务 器 在 开始 下 载 前 和 完成 下 载 后 都 要 访问 和 维护 这 张 表 ， 以 免 不 同 
的 服务 器 做 重复 的 工作 ， 这 个 存储 哈 希 表 的 服务 器 的 通信 就 成 了 整个 仆 
虫 系统 的 瓶 开 。 如 何 消除 这 个 瓶颈 是 我 经 常 考 应 聘 者 的 试题 。 


这 里 有 各 种 解决 办 法 ， 没 有 绝对 正确 的 ， 但 是 却 有 好 坏 之 分 。 好 的 方法 
一 般 都 采用 了 这 样 两 个 技术 : 首先 明确 每 台 下 载 服务 器 的 分 工 ， 也 就 是 
说 在 调度 时 一 看 到 某 个 URL 就 知道 要 交 给 哪 台 服务 器 去 下 载 ， 这 样 就 避 
免 了 很 多 服务 器 对 同一 个 URL 做 出 是 否 需 要 下 载 的 判断 。 然 后 ， 在 明确 
分 工 的 基础 上 ,判断 URL 是 否 下 载 就 可 以 批 处 理 了 , 比如 每 次 向 哈 希 表 ( 一 
组 独立 的 服务 器 ) 发 送 一 大 批 询问 , 或 者 每 次 更 新 一 大 批 哈 希 表 的 内 容 。 
这 样 通信 的 次 数 就 大 大 减少 了 。 


4 小 结 


在 图 论 出 现 后 的 很 长 时 间 里 ， 现 实 世 界 中 图 的 大 小 都 是 在 几 千 个 节点 以 
下 的 规模 ( 比如 公路 图 、 铁 路 图 等 ) 。 那 时 候 ， 图 的 遍历 是 一 件 很 简单 
的 事情 ， 因 此 在 工业 界 没有 多 少 人 专门 研究 这 个 问题 。 过 去 ， 即 使 是 计 
算 机 专业 的 学 生 , 大 部 分 人 也 体会 不 到 这 个 领域 的 研究 有 什么 实际 用 处 ， 
因为 大 家 在 工作 中 可 能 一 辈子 都 用 不 到 它 。 但 是 随 着 互联 网 的 出 现 ， 图 
的 遍历 方法 一 下 子 有 了 用 武之 地 。 很 多 数学 方法 就 是 这 样 ， 看 上 去 没有 
什么 实际 用 途 ， 但 是 随 着 时 间 的 推移 会 一 下 子 派 上 大 用 场 。 这 怒 怕 是 世 
界 上 还 有 很 多 人 毕生 研究 数学 的 原因 。 
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第 10 兮 ”PageRank 一 Google 的 
民主 表决 式 网 页 排名 技术 


对 于 大 部 分 用 户 的 查询 ， 今 天 的 搜索 引擎 ， 都 会 返回 成 和 于 上 万 条 结果 ， 那 
么 应 该 如 何 排序 ， 把 用 户 最 想 看 到 的 结果 排 在 前 面 呢 ? 这 个 问题 很 大 程度 
上 决定 了 搜索 引擎 的 质量 。 我 们 在 这 一 章 和 下 一 章 将 回答 这 个 问题 。 总 的 
来 讲 ， 对 于 一 个 特定 的 查询 ， 搜 索 结 果 的 排名 取决 于 两 组 信息 ， 关 于 网 页 
的 质量 信息 ( Quality ) , 和 这 个 查询 与 每 个 网 页 的 相关 性 信息 (Relevance ) 。 
这 一 章 介 绍 衡量 网 页 质量 的 方法 ， 下 一 章 介 绍 度量 搜索 关键 词 和 网 页 相关 
性 的 方法 。 


1 PageRank 算法 的 原理 


大 家 可 能 知道 ,Google 革 命 性 的 发 明 是 它 名 为 “PageRank” 的 网 页 排名 算法 ， 
这 项 技术 在 1998 年 前 后 使 得 搜索 的 相关 性 有 了 质 的 飞 聊 ， 圆 满 地 解决 了 
以 往 网 页 搜索 结果 中 排序 不 好 的 问题 。 以 至 于 大 家 认为 Google 的 搜索 质 
量 好 , 甚至 这 个 公司 成 功 都 是 基于 这 个 算法 。 当 然 , 这 样 的 说 法 有 些 夸大 了 。 


最 先 试图 给 互联 网 上 的 众多 网 站 排序 的 并 不 是 Google, 而 是 雅虎 公司 。 雅 
虎 的 创始 人 杨 致远 和 费 罗 最 早 使 用 目录 分 类 的 方式 让 用 户 通 过 互联 网 检 
索 信 息 (关于 这 段 历史 ， 读 者 可 以 参看 拙 作 《 浪 潮 之 里》) 。 但 由 于 当 
时 计算 机 容量 和 速度 的 限制 , 雅虎 和 同时 代 的 其 他 搜索 引擎 都 存在 一 个 共 


100 站 数学 之 美 


同 的 问题 : 收录 的 网 页 太 少 , 而 且 只 能 对 网 页 中 常见 内 容 相 关 的 实际 用 词 
进行 索引 。 那 时 ， 用 户 很 难 找到 相关 信息 。 我 记得 1999 年 以 前 查找 一 篇 
论文 ， 要 换 好 几 个 搜索 引擎 。 后 来 DEC 开发 了 AltaVista 搜索 引擎 ， 只 
用 了 一 台 Alpha 服务 器 ， 却 收录 了 比 以 往 任 何 引擎 都 多 的 网 页 ， 而 且 对 
里 面 的 每 个 词 都 进行 索引 。 但 是 ,AltaVista 虽然 让 用 户 搜索 到 了 大 量 结果 ， 
但 大 部 分 结果 却 与 查询 不 太 相 关 , 有 时 找 想 看 的 网 页 需要 翻 好 几 页 。 所 以 ， 
最 初 的 AltaVista 在 一 定 程度 上 解决 了 履 盖 率 的 问题 ， 但 还 不 能 很 好 地 对 
结果 进行 排序 。 和 AltaVista 同时 代 的 搜索 引擎 公司 还 有 Inktomi。 这 两 
家 公司 多 少 发 现 互 联网 网 页 的 质量 在 搜索 结果 的 排序 中 也 应 该 起 一 些 作 
用 ,于 是 尝试 了 一 些 方法 ， 有 点 效果 ,但 这 些 方法 都 是 在 数学 上 不 很 完 
善 的 方法 。 这 些 方法 或 多 或 少 地 用 到 了 指向 某 个 网 页 的 链接 以 及 链接 上 
的 文本 (在 搜索 技术 中 称 为 锚 文 本 ，Anchor Text ) 的 技术 。 这 在 当时 都 
是 公开 的 技术 。1996 年 , 我 在 约翰 : 霍 普 金 斯 大 学 的 师兄 Scott Weiss( 后 
来 在 威廉 : 玛丽 学 院 任教 ) 在 做 信息 检索 博士 论文 时 就 用 链接 数量 作为 
搜索 排序 的 一 个 因子 。 





10.1 大 家 都 说 “ 他 是 李开复 


真正 找到 计算 网 页 自身 质量 的 完美 的 数学 模型 的 是 Google 的 创始 人 拉 里 

佩 奇 和 谢 尔 盖 : 布 林 。Google 的 “PageRank” ( 网 页 排名 ) 是 怎么 回 事 呢 ? 

其 实 简单 地 说 就 是 民主 表决 。 打 个 比方 ， 假 如 我 们 要 找 李 开 复 博士 ， 有 
100 个 人 举 手 说 自己 是 李开复 。 那 么 谁 是 真 的 呢 ? 也 许 有 好 几 个 真 的 ， 但 
即使 如 此 谁 又 是 大 家 真正 想 找 的 呢 ? 如 果 大 家 都 说 在 创新 工场 的 那个 是 真 
的 ， 那么 他 就 是 真 的 。 
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在 互联 网 上 ， 如 果 一 个 网 页 被 很 多 其 他 网 页 所 链接 ， 说 明 它 受到 普遍 的 
承认 和 人 信赖， 那么 它 的 排名 就 高 。 这 就 是 PageRank 的 核心 思想 。 当 然 
Google 的 PageRank 算法 实际 上 要 复杂 得 多 。 比 如 说 ， 对 来 自 不 同 网 页 的 
链接 区 别 对 待 ， 因 为 网 页 排名 高 的 那些 网 页 的 链接 更 可 靠 ， 于 是 要 给 这 些 
链接 以 较 大 的 权重 。 这 就 好 比 在 现实 生活 中 股东 大 会 里 的 表决 ， 是 要 考虑 
每 个 股东 的 表决 权 ( Voting Power ) 的 ， 拥 有 20% 表决 权 的 股东 和 拥有 
1% 表决 权 的 股东 ， 对 最 后 的 表决 结果 的 影响 力 明 显 不 同 。PageRank 算法 
考虑 了 这 个 因素 ， 即 网 页 排名 高 的 网 站 贡献 的 链接 权重 大 。 


现在 举 一 个 例子 ， 我 们 知道 一 个 网 页 Y 的 排名 应 该 来 自 于 所 有 指 回 这 
个 网 页 的 其 他 网 页 ,Xz,.…,Xg 的 和 权重 之 和 ， 如 下 图 中 , Y 了 的 网 页 排名 
pagerank = 0.001 + 0.01 + 0.02 + 0.05 = 0.081。 





10.2 ”网 页 排名 的 计算 


虽然 佩 奇 和 布 林 不 强调 这 个 算法 中 谁 都 贡献 了 什么 思想 ,但 是 据 我 了 解 ， 
上 述 想 法 应 该 来 自 于 佩 奇 。 接 下 来 的 问题 是 Xi,X2,Xs,X4 的 权重 分 别 是 多 
少 ,如 何 度量 。 佩 奇 认为 ,应 该 是 这 些 网 页 本 身 的 网 页 排名 。 现 在 麻烦 来 了 ， 
计算 搜索 结果 的 网 页 排名 过 程 中 需要 用 到 网 页 本 身 的 排名 ， 这 不 成 了 “ 先 
有 鸡 还 是 先 有 人 蛋 ” 的 问题 了 吗 ? 


破解 这 个 怪圈 的 应 该 是 布 林 。 他 把 这 个 问题 变 成 了 一 个 二 维 矩 阵 相 乘 的 
间 题 ， 并 且 用 迭代 的 方法 解决 了 这 个 问题 。 他 们 先 假定 所 有 网 页 的 排名 
是 相同 的 ， 并 且 根 据 这 个 初始 值 ， 算 出 各 个 网 页 的 第 一 次 碗 代 排 名 ， 然 
后 青 根据 第 一 次 迭代 排名 算出 第 二 次 的 排名 。 他 们 两 人 从 理论 上 证 明了 
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不 论 初始 值 如 何 选 取 ， 这 种 算法 都 保证 了 网 页 排名 的 估计 值 能 收敛 到 排 
名 的 真实 值 。 值得 一 提 的 事 ， 这 种 算法 是 完全 没有 任何 人 工 干预 的 。 


理论 问题 解决 了 ,又 遇 到 实际 问题 。 因 为 互联 网 上 网 页 的 数量 是 巨大 的 ,上 
面 提 到 的 二 维 矩 阵 从 理论 上 讲 有 网 页 数量 的 二 次 方 这 人 么 多 个 元 素 。 如 果 
假定 有 十 亿 个 网 页 ， 那 么 这 个 矩阵 就 有 一 百 亿 亿 个 元 素 。 这 么 大 的 矩阵 
相 乘 ， 计 算 且 是 非常 大 的 。 佩 奇 和 布 林 两 人 利用 稀疏 矩阵 计算 的 技巧 ,大 
大 简化 了 计算 量 ， 并 实现 了 这 个 网 页 排名 算法 。 


互联 网 网 页 数量 的 增长 使 得 PageRank 的 计算 量 越 来 越 大 ， 必 须 利用 多 人 台 
服务 器 才能 完成 。Google 早期 时 ，PageRank 计算 的 并 行 化 是 半 手 工 、 半 
自动 的 ,这 样 更 新 一 遍 所 有 网 页 的 PageRank 的 周期 很 长 。2003 年 ， 
Google 的 工程 师 发 明了 MapReduce 这 个 并 行 计算 的 工具 ，PageRank 的 
并 行 计算 完全 自动 化 了 ， 这 就 大 大 缩短 了 计算 时 间 ， 使 网 页 排名 的 更 新 
周期 比 以 前 短 了 许多 。 

”我 到 Google 后 ， 佩 奇 和 我 们 几 个 新 员工 座谈 时 ， 讲 起 他 当年 和 布 林 是 怎 
么 想到 网 页 排名 算法 的 。 他 说 : “当时 我 们 觉得 整个 互联 网 就 像 一 张大 
的 图 , 每 个 网 站 就 像 一 个 节点 , 而 每 个 网 页 的 链接 就 像 一 个 弧 。 我 想 ， 
互联 网 可 以 用 一 个 图 或 者 矩阵 描述 ， 我 也 许可 以 用 这 个 发 现 做 篇 博士 论 
文 。” 他 和 布 林 就 这 样 发 明了 PageRank 算法 。PageRank 中 的 Page 一 词 
在 英文 里 既 有 网 页 、 书 页 等 意思 ， 也 是 佩 奇 的 姓氏 我 们 开玩笑 讲 ， 为 什 
么 这 个 算法 叫 “ 佩 奇 ”算法 不 叫 “ 布 林 ” 算 法 ? 


网 页 排名 的 高 明之 处 在 于 它 把 整个 互联 网 当 作 一 个 整体 来 对 符 。 这 无 意 
识 中 符合 了 系统 论 的 观点 。 相 比 之 下 ， 以 前 的 信息 检索 大 多 把 每 一 个 网 
页 当 作 独立 的 个 体 对 待 ， 大 部 分 人 当初 只 注意 了 网 页 内 容 和 查询 语句 的 
相关 性 ， 忽 略 了 网 页 之 间 的 关系 。 虽 然 在 佩 奇 和 布 林 同时 代 也 有 一 些 人 
在 思考 如 何 利用 网 页 之 间 的 联系 来 衡量 网 页 的 质量 ,但 只 是 挤 到 一 些 皮 
毛 ， 找 到 一 些 拼 次 的 办 法 ， 都 没有 从 根本 上 解决 问题 。 
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PageRank 在 当时 对 搜索 结果 的 影响 非常 大 。 在 1997-1998 年 前 后 ， 所 有 
互联 网 上 能 找到 的 搜索 引擎 , 每 十 条 结果 只 有 两 三 条 是 相关 的 、 有 用 的 。 
而 还 在 斯 坦 福 大 学 实验 室 里 的 Google 当时 能 做 到 每 十 条 结果 有 七 八条 是 
相关 的 。 这 是 一 个 质 的 差别 ， 给 人 的 感觉 就 如 同 iPhone 和 老式 诺基亚 手 
机 的 差异 那么 大 。 这 使 得 Google 能 够 迅速 打败 以 前 所 有 的 搜索 引 警 。 但 
是 今天 ， 任 何 商业 的 搜索 引擎 ， 十 条 结果 都 有 七 八条 是 相关 的 了 ， 这 时 
一 个 新 的 搜索 引擎 在 技术 上 投入 再 大 ， 可 提升 的 空间 却 非常 有 限 ， 用 户 
很 难 感 党 到 差别 。 这 也 是 后 来 微软 很 难 在 搜索 上 有 所 作为 的 原因 。 


2 延伸 阅读 : PageRank 的 计算 方法 
读者 知识 背景 : 线性 代数 。 
假定 向 量 
B = (b,,b,,..., by) ( 10.1) 


为 第 一 、 第 二 、… 第 N 个 网 页 的 网 页 排名 。 和 矩阵 


Ca Cn CNM 
44=| 0 … Qnrm … 0QmM (10.2 ) 
QM1 … dmn … WMM 


为 网 页 之 间 链 接 的 数目 ， 其 中 amn 代表 第 m 个 网 页 指向 第 ne 个 网 页 的 链 
接 数 。4 是 已 知 的 ， 8 是 未 知 的 ， 是 我 们 所 要 计算 的 。 
假定 B. 是 第 i 次 迭代 的 结果 ， 那 么 

Bi 一 A. Bi (10.3) 


初始 假设 : 所 有 网 页 的 排名 都 是 1/ N， 即 


1 1 1 
NN NJ/° 
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显然 通过 (10.3) 简单 (但 是 计算 量 非常 大 ) 的 矩阵 运算 可 以 得 到 
Bi,Bz,.…。 可 以 证 明 ( 省略) Bi 最 终 会 收 合 ， 即 Bi 无 限 趋 近 于 BB， 此 时 : 

B 二 Bx 4 。 因 此 ， 当 两 次 磷 代 的 结果 8B, 和 8,_, 之 间 的 差异 非常 小 ， 接 近 
于 零 时 ,停止 先 代 运算 ,算法 结束 。 一 般 来 讲 ， 只 要 10 次 左右 的 迭代 基 
本 上 就 收敛 了 。 


由 于 网 页 之 间 链 接 的 数量 相 比 互联 网 的 规模 非常 稀 朴 ， 因 此 计算 网 页 的 网 页 
排名 也 需要 对 零 概率 或 者 小 概率 事件 进行 平滑 处 理 。 网 页 的 排名 是 个 一 维 向 
量 ， 对 它 的 平 请 处 理 只 能 利用 一 个 小 的 常数 a 。 这 时 ， 公 式 〈10.3 ) 变 成 


Bi = | s+ -4 | ( 10.4 ) 
其 中 N 是 互联 网 网 页 的 数量 ，a 是 一 个 ( 较 小 的 ) 常数 , 1 是 单位 矩阵 。 


网 页 排名 的 计算 主要 是 矩阵 相 乘 ,这 种 计算 很 容易 分 解 成 许多 小 任务 , 在 
多 台 计 算 机 上 并 行 。 和 矩阵 相 乘 具体 的 并 行 化 方法 会 在 最 后 介绍 Google 并 
行 计算 工具 MapReduce 时 再 作 讨 论 。 


3 小 结 


今天 ，Google 搜索 引擎 比 最 初 复 杂 、 完 善 了 许多 。 但 是 PageRank 在 
Google 所 有 算法 中 依然 是 至 关 重 要 的 。 在 学 术 界 ， 这 个 算法 被 公认 
为 是 文献 检索 中 最 大 的 贡献 之 一 ， 并 且 被 很 多 大 学 列 人 信息 检索 课程 
(Information Retrieval ) 的 教程 。 佩 奇 本 人 也 因为 这 个 算法 在 30 岁 时 
当选 为 美国 工程 院 院士 ， 是 继 乔 布 斯 和 盖 区 之 后 又 一 位 当选 院士 的 辍学 
生 。 由 于 PageRank 算法 受到 专利 保护 ， 它 带 来 两 个 结果 。 首 先 ， 其 他 搜 
索引 警 开 始 时 都 比较 遵守 游戏 规则 ， 不 去 侵犯 它 ， 这 对 当时 还 很 弱小 的 
Google 是 一 个 很 好 的 保护 。 第 二 ， 它 使 得 斯 坦 福 大 学 拥有 了 超过 1% 的 
Google 股票 ， 带 来 了 超过 10 亿美 元 的 收益 。 


参考 文献 : 


1. Sergey Brin and Lawrence Page ,The Anatomy of a Large-Scale Hypertextual Web 
Search Engine,http://infolab.stanford.edu/~backrub/google.html 
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前 面 已 经 谈 过 了 如 何 自动 下 载 网 页 、 如 何 建立 索引 、 如 何 衡量 网 页 的 质量 
( PageRank ) 。 接 下 来 谈 谈 如 何 确 定 一 个 网 页 和 某 个 查询 的 相关 性 。 了 解 
了 这 四 个 方面 , 有 一 定编 程 基础 的 读者 就 可 以 写 出 一 个 简单 的 搜索 引擎 了 ， 
比如 为 自己 所 在 的 学 校 或 院 系 搭建 一 个 小 型 搜索 引擎 。 


我 们 还 是 看 看 前 面 介绍 的 例子 ， 查 找 关 于 “原子 能 的 应 用 ”的 网 页 。 第 一 
步 是 在 索引 中 找到 包含 这 三 个 词 的 网 页 ( 详 见 第 8 章 关 于 布尔 运算 的 内 容 )。 
现在 任何 一 个 搜索 引擎 能 提供 几 十 万 甚至 是 上 百 万 个 与 这 个 查询 词组 多 少 
有 点 关系 的 网 页 ， 比 如 Google 返回 了 大 约 一 干 万 个 结果 。 那 么 哪个 应 该 
排 在 前 面 呢 ? 显然 应 该 把 网 页 本 身 质量 好 ， 且 网 页 和 查询 关键 词 “ 原 子 能 
的 应 用 ”相关 性 高 的 网 页 排 在 前 面 。 第 10 章 已 经 介绍 了 如 何 度量 网 页 的 
质量 。 这 里 介绍 另外 一 个 关键 技术 : 如 何 度量 网 页 和 查询 的 相关 性 。 


1 搜索 关键 词 权重 的 科学 度量 TFE-IDE 


短语 “原子 能 的 应 用 ”可 以 分 成 三 个 关键 词 : 原子 能 的、 应用。 根据 直觉 ， 
我 们 知道 ， 包 含 这 三 个 词 较 多 的 网 页 应 该 比 包含 它们 较 少 的 网 页 相关 。 
当然 ， 这 个 办 法 有 一 个 明显 的 漏洞 ， 那 就 是 内 容 长 的 网 页 比 内 容 短 的 网 
页 占便宜 ， 因 为 长 的 网 页 总 的 来 讲 包 含 的 关键 词 要 多 些 。 因 此 ,需要 根 
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据 网 页 的 长 度 ， 对 关键 词 的 次 数 进行 归 一 化 ， 也 就 是 用 关键 词 的 次 数 除 
以 网 页 的 总 字数 。 我 们 把 这 个 商 称 为 “关键 词 的 频率 ”， 或 者 “ 单 文本 
词 频 ”( Term Frequency ) ,比如 , 某 个 网 页 上 一 共有 1000 词 , 其 中 “ 原 
子 能 ”、“ 的 ”和 “应 用 ”分 别 出 现 了 2 次 、35 次 和 5 次 ,那么 它们 的 
词 频 就 分 别 是 0.002、0.035 和 0.005。 将 这 三 个 数 相 加 ， 其 和 0.042 就 是 
相应 网 页 和 查询 “原子 能 的 应 用 ”的 “ 单 文本 词 频 ”。 


因此 ， 度 量 网 员 和 查询 的 相关 性 ， 有 一 个 简单 的 方法 ， 就 是 直接 使 用 各 
个 关键 词 在 网 页 中 出 现 的 总 词 频 。 具 体 地 讲 ， 如 果 一 个 查询 包含 N 个 关 
键 词 wu wz …wn ， 它 们 在 一 个 特定 网 页 中 的 词 频 分 别 是 : TR,TE,,..…, TFyw。 
(TF; Term Frequency， 是 词 频 一 词 的 英文 缩写 ) 。 那 么 ， 这 个 查询 和 
该 网 页 的 相关 性 〈 即 相似 度 ) 就 是 : 


TR + ThE,+ ... + TFy (11.1) 


读者 可 能 已 经 发 现 了 又 一 个 漏洞 。 在 上 面 的 例子 中 ,“ 的 ”这 个 词 占 了 总 
词 频 的 80% 上 ， 而 它 对 确定 网 页 的 主题 几乎 没什么 用 处 。 我 们 称 这 种 词 
叫 “ 停 止 词 ” (Stop Word ) ， 也 就 是 说 ， 在 度量 相关 性 时 不 应 考虑 它 
们 的 频率 。 在 汉语 中 ， 停 止 词 还 有 “是 ”、“ 和 ”、“ 中 ”、“ 地 ”、 
“得 ”等 几 十 个 。 忽 略 这 些 停 止 词 后 ， 上 述 网 页 和 查询 的 相关 性 就 变 成 
了 0.007， 其 中 “原子 能 ”贡献 了 0.002，“ 应 用 ”和 贡献 了 0.005。 


细心 的 读者 可 能 还 会 发 现 为 一 个 小 漏洞 。 在 汉语 中 ,“ 应 用 ”是 个 很 通用 
的 词 ， 而 “原子 能 ”是 个 很 专业 的 词 , 后 者 在 相关 性 排名 中 比 前 者 重要 。 
因此 ， 和 需要 对 汉语 中 的 每 一 个 词 给 一 个 权重 ,这 个 权重 的 设 定 必须 满足 
下 面 两 个 条 件 : 


1， 一 个 词 预测 主题 的 能 力 越 强 ,权重 越 大 ， 反 之 ， 权 重 越 小 。 在 
网 页 中 看 到 “原子 能 ”这 个 词 ， 或 多 或 少 能 了 解 网 页 的 主题 。 而 看 
到 “应 用 ”一 词 ， 则 对 主题 基本 上 还 是 一 无 所 知 。 因 此 ，“ 原 子 能 ” 
的 权重 就 应 该 比 应 用 大 。 
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2， 停 止 词 的 权重 为 零 。 


很 容易 发 现 ， 如 果 一 个 关键 词 只 在 很 少 的 网 页 中 出 现 ， 通 过 它 就 容易 锁 
定 搜索 目标 , 它 的 权重 也 就 应 该 大 。 反之 , 如 果 一 个 词 在 大 量 网 页 中 出 现 ， 
看 到 它 仍 然 不 很 清楚 要 找 什 么 内 容 ， 因 此 它 的 权重 就 应 该 小 。 


概括 地 讲 ， 假 定 一 个 关键 词 w 在 Ds 个 网 页 中 出 现 过 ， 那么 Dy 越 大 , w 的 
权重 越 小 ,反之 亦 然 ,在 信息 检索 中 ,使 用 最 多 的 权重 是 “ 道 文本 频率 指数 ” 
( Inverse Document Frequency， 缩 写 为 IDF ) ， 它 的 公式 为 log (元 ) ， 其 
中 D 是 全 部 网 页 数 。 比 如 ， 假 定 中 文 网 页 数 是 D = 10 亿 ， 停止 词 “的 ” 
在 所 有 的 网 页 中 都 出 现 ， 即 Dy = 10 亿 ， 那 么 它 的 IDF =log (10 亿 /10 
亿 )=1log(1 = 0。 假如 专用 词 “原子 能 ”在 200 万 个 网 页 中 出 现 ， 

Dw = 200 万 ， 则 它 的 权重 1DF = log (500) = 8.96。 又 假定 通用 词 “ 应 用 ” 
出 现在 五 亿 个 网 页 中 ， 它 的 权重 IDF = log (2)， 则 只 有 1。 


也 就 是 说 ,在 网 页 中 找到 一 个 “原子 能 ”的 命中 率 ( Hits ) 相当 于 找到 
九 个 “应 用 ”的 命中 率 。 利 用 IDF， 上 述 相 关 性 计算 的 公式 就 由 词 频 的 
简单 求 和 变 成 了 加 权 求 和 ， 即 


TF :IDF, + TE, :IDF, + + TF :IDRF, (11.2 ) 


在 上 面 的 例子 中 , 该 网 页 和 “原子 能 的 应 用 ”的 相关 性 为 0.0161, 其 中 “ 原 
子 能 ”贡献 了 0.0126， 而 “应 用 ”只 贡献 了 0.0035。 这 个 比例 和 我 们 的 
直觉 比较 一 致 了 。 


TF-IDF (Term Frequency / Inverse Document Frequency ) 的 概念 被 
公认 为 信息 检索 中 最 重要 的 发 明 。 在 搜索 、 文 献 分 类 和 其 他 相关 领域 有 
着 广泛 的 应 用 。 讲 起 TF-IDF 的 历史 变 有 意思 。LDF 的 概念 最 早 是 剑桥 
大 学 的 斯 巴克 . 琼斯: (Karen Spirck Jones ) 提出 来 的 。 斯 巴克 ， 琼斯 
1972 年 在 一 篇 题 为 “关键 词 特殊 性 的 统计 解释 和 它 在 文献 检索 中 的 应 用 ” 

的 论文 中 提出 IDF 的 概念 。 遗 憾 的 是 ， 她 踊 没 有 从 理论 上 解释 为 什么 权 


1 

斯 巴克 琼斯 ， 剑 
桥 大 学 计算 机 女 科 
学 家 ， 最 著名 的 言 
论 : “计算 机 是 如 
此 重要 ， 因 此 不 能 
只 留 给 男人 去 做 ! " 
在 程序 界 广 为 流传 。 
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重 IDF 局 应 该 是 对 数 函数 og (二 元 ) ( 而 不 是 其 他 函数 ， 比如 平方 根 过 ) ， 


也 没有 在 这 个 题目 上 作 进 一 步 的 深入 研究 ， 以 至 于 在 以 后 的 很 多 文献 中 
大 们 提 到 TF-1IDF 时 设 有 引用 她 的 论文 ， 绝 大 多 数 人 甚至 不 知道 斯 巴克 
琼斯 的 贡献 。 同 年 剑桥 大 学 的 罗宾逊 写 了 一 个 两 页 纸 的 解释 ,解释 得 很 
不 好 。 倒 是 后 来 康 奈 尔 大 学 的 萨 尔 顿 ( Salton ) 多 次 撰文 、 写 书 讨 论 TF- 
IDF 在 信息 检索 中 的 用 途 ， 加 上 萨 尔 顿 本 人 的 大 名 ( 信息 检索 领域 的 世 
界 级 大 奖 就 是 以 萨 尔 顿 的 名 字 命 名 的 ) ， 很 多 人 都 引用 萨 尔 顿 的 书 ， 甚 
至 以 为 这 个 信息 检索 中 最 重要 的 概念 是 他 提出 的 。 当 然 ， 记 界 并 没有 起 
记 斯 巴克 … 琼斯 的 贡献 。2004 年 ， 在 纪念 《文献 学 学 报 》 创 刊 60 周年 
之 际 ， 该 学 报 重印 了 斯 巴克 琼斯 的 大 作 。 罗 宾 进 在 同期 期 刊 上 写 了 篇 . 
文章 ， 用 香农 的 信息 仑 解释 IDF, 这 回 的 解释 是 对 的 , 但 文章 写 得 并 不 好 ， 
非常 元 长 ( 足 足 18 页 ) ， 把 简单 问题 搞 复 杂 了 。 其 实 ， 信 息 论 的 学 者 们 
已 经 发 现 并 指出 ， 所 谓 IDF 的 概念 就 是 一 个 特定 条 件 下 关键 词 的 概率 分 
布 的 交叉 精 (Kullback-Leibler Divergence ) ( 详 见 本 书 第 6 章 “ 信 息 的 
度量 和 作用 ”) 。 这 样 ， 关 于 信息 检索 相关 性 的 度量 ， 又 回 到 了 信息 论 。 


现在 的 搜索 引擎 对 TF-IDF 进行 了 不 少 细微 的 优化 ， 使 得 相关 性 的 度量 
更 加 准确 了 。 当 然 ， 对 有 兴趣 写 一 个 搜索 引擎 的 爱好 者 来 讲 ， 使 用 TF- 
IDE 就 是 够 了 。 如 果 结 合 网 页 排名 ( PageRank ) 算法 , 那么 给 定 一 个 查询 ， 
有 关 网 页 的 综合 排名 大 致 由 相关 性 和 网 页 排名 的 乘积 决定 。 


2 ”延伸 阅读 : TE-IDE 的 信息 论 依 据 
读者 背景 知识 : 信息 论 和 概率 论 。 


一 个 查询 (Query ) 中 每 一 个 关键 词 (Key Word ) w 的 权重 应 该 反映 这 
个 词 对 查询 来 讲 提供 了 多 少 信息 。 一 个 简单 的 办 法 就 是 用 每 个 词 的 信息 
量 作为 它 的 权重 ， 即 
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I(w) = —P{w) log Pfw) 


TF (Ww)) TF(w) _ TF(w) N 

Nlog—n = lBTFC) ( 11.3) 
其 中 ,，N 是 整个 语料库 的 大 小 ， 是 个 可 以 省 略 的 常数 。 上 面 的 公式 可 以 
简化 成 








I(w) = TF(w) log FE (11.4 ) 


但 是 ,公式 (11.4) 有 一 个 缺陷 : 两 个 词 出 现 的 频率 TF 相同 ， 一 个 是 某 
篇 特定 文章 中 的 常见 词 ， 而 另外 一 个 词 是 分 散在 多 篇 文章 中 ， 那么 显然 
第 一 个 词 有 更 高 的 分 辨 率 ， 它 的 权重 应 该 更 大 。 显 然 ， 更 好 的 权重 公式 
应 该 反映 出 关键 词 的 分 辩 率 。 


如 果 做 一 些 理想 的 假设 ， 
人 DTF(w) 
1 ) 每 个 文献 大 小 基本 相同 ， 均 为 M 个 词 ， 即 M = 方 = 之 一。 


D 
2 ) 一 个 关键 词 在 文献 一 旦 出 现 , 不 论 次 数 多 少 , 贡献 都 等 同 , 这 样 一 个 词 


要 么 在 一 个 文献 中 出 现 cGw = 次 ， 要 么 是 零 。 注 意 ，cGw) <M ， 





那么 从 公式 (11.4) 出 发 可 以 得 到 下 面 的 公式 : 
N MD 
TF (w) log TECw) = TF(w) log 0w)Dew) 


= TF(w) log(p nr 0) (11.5) 


这 样 ， 我 们 看 到 TF-IDF 和 信息 量 之 间 的 差异 就 是 公式 〈11.6 ) 中 的 第 二 
。 因 为 c(w) < M ， 所 以 第 二 项 大 于 零 ， 它 是 cGw) 的 递减 图 数 。 把 上 面 
的 公式 重 与 成 


110 川 数学 之 美 


TF -IDF(w) = I(w) — TF(w) log zi ( 11.6) 


可 以 看 到 ， 一 个 词 的 信息 量 1(w) 越 多 ，TF-IDF 和 值 越 大 ; 同时 w 命中 的 
文献 中 ww 平均 出 现 的 次 数 越 多 ， 第 二 项 越 小 ，TF-IDF 也 越 大 。 这 些 结论 
和 信息 论 完全 相符 。 


3 小 结 


TF-IDF 是 对 搜索 关键 词 的 重要 性 的 度量 ， 从 理论 上 讲 ， 它 有 很 强 的 理论 
根据 。 因 此 ， 如 果 对 搜索 不 是 很 精通 的 人 ， 直 接 采 用 TF-IDE 效果 也 不 
会 太 差 。 现 在 各 家 搜索 引擎 对 关键 词 重要 性 的 度量 ， 都 在 TF-IDEF 的 基 
础 上 有 些 改 进 和 和 微调。 但是， 在 原理 上 与 TF-IDF 相差 不 远 。 
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第 12 晶 地 图 和 本 地 搜索 的 最 基本 技术 
-一 有 限 状 态 机 和 动态 规划 


2007 年 ， 第 一 次 在 谷歌 黑板 报 上 写 “数学 之 美 ” 系列 时 ， 本 地 搜索 和 
服务 还 不 是 很 普及 ,智能 手机 不 仅 数量 有 限 ， 而 且 完 全 没有 结合 本 地 信 
息 。 地 图 服务 的 流量 与 网 页 搜索 相 比 , 只 是 众多 垂直 搜索 的 一 部 分 。 今 天 ， 
本 地 生活 服务 变 得 越 来 越 重要 ， 而 确认 地 点 、 查 看 地 图 、 查 找 路 线 等 等 
依然 是 本 地 生活 服务 的 基础 。 这 里 为 了 减少 章节 的 数量 ,我 将 有 限 状 态 
机 这 个 系列 和 动态 规划 的 一 部 分 合并 ， 组 成 围绕 地 图 和 本 地 生活 搜索 的 
一 章 。 


2008 年 9 月 23 日 ,Google、T-Mobile 和 HTC 宣布 了 第 一 款 基 于 开源 
操作 系统 Android 的 3G 手机 G1。 这 款 手 机 的 外 观 和 体验 远 不 如 一 年 之 
前 苹果 推出 的 第 一 款 iPhone， 价 钱 也 差 不 了 太 多 ,但 是 依然 有 不 少 人 使 
用 。 它 的 杀手 级 功能 是 利用 全 球 卫 星 定位 系统 实现 全 球 导 航 。 卫 星 导航 
的 功能 早 在 2000 年 前 后 就 已 有 车 载 设 备 使 用 ， 但 是 售 价 昂贵 。2004 年 
我 购买 的 一 款 麦 哲 伦 便携 式 导航 系统 ， 价 格 在 1000 美元 左右 (现在 只 要 
两 三 百 美元 ) , 后 来 一 些 智 能 手机 也 开发 了 这 个 功能 , 但 是 基本 上 不 可 用 。 
Android 手机 的 这 个 功能 当时 已 经 完全 可 以 媲美 任何 一 个 卫星 导航 仪 , 加 
上 它 的 地 址 识别 技术 (采用 有 限 状 态 机 ) 比 任何 一 个 卫星 导航 仪 严格 的 
地 址 匹配 技术 (不 能 输 错 一 个 字母 ) 要 好 得 多 ， 结 果 麦 哲 伦 等 导航 仪 制 
造 公司 在 G1 发 布 当 天 的 股价 梭 跌 四 成 。 
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管 能 手机 的 定位 和 导航 功能 ， 里 面 的 关键 技术 只 有 三 个 : 第 一 是 利用 卫 
星 定 位 ， 这 一 点 传统 的 导航 仪 都 能 做 到 ,不 做 介绍 ; 第 二 是 地 址 的 识别 ， 
在 本 章 第 一 节 中 介绍 ; 第 三 ， 根 据 用 户 输入 的 起 点 和 终点 ， 在 地 图 上 规 
划 最 短路 线 或 者 最 快 路 线 ， 在 本 章 第 二 节 中 介绍 。 


1 地 址 分 析 和 有 限 状 态 机 


地 址 的 识别 和 分 析 是 本 地 搜索 必 不 可 少 的 技术 。 判 断 一 个 地 址 的 正确 性 
同时 非常 准确 地 提炼 出 相应 的 地 理 信 息 〈 省 、 市 、 街 道 、 门 牌号 等 等 ) 
看 似 简单 ， 实 际 上 很 麻烦 。 比 如 腾讯 公司 在 深圳 的 地 址 ， 我 收 到 的 邮件 
和 包 训 上面 有 如 下 各 种 各 样 的 地 址 : 


广东 省 深圳 市 腾讯 大 厦 

广东 省 518057 深圳 市 南山 区 科技 园 腾讯 大 厦 

深圳 市 518057 科技 园 腾讯 大 大 

深圳 市 南山 区 科技 园 腾 讯 公 局 

深圳 市 南山 区 科技 园 腾讯 总 部 518000 (估计 不 知道 准确 的 邮编 ) 


三 东 省 深圳 市 科技 网 中 一 路 腾讯 公司 


这 些 地 址 写 得 都 有 点 不 清楚 ， 但 是 邮件 和 包 囊 我 都 收 到 了 ， 说 明 邮 有 递 员 
可 以 识别 。 但 是 , 如 果 让 一 个 程序 员 写 一 个 分 析 器 分 析 这 些 地 址 的 描述 ， 
瓯 怕 就 不 是 一 件 容 易 的 事 了 。 其 根本 原因 在 于 ， 地 址 的 描述 虽然 看 上 去 
简单 , 但 是 它 依然 是 比较 复杂 的 上 下 文 有 关 的 文法 , 而 不 是 上 下 文 无 天。 
比如 下 面 的 两 个 地 址 : 


上 海 市 北京 东 路 xx 号 
南京 市 北京 东 路 xx 号 


当 识 别 器 扫描 到 “北京 东 路 ”时 ， 它 和 后 面 的 门牌 号 是 否 构成 一 个 正确 
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的 地 址 需要 看 它 的 上 下 文 ， 即 城市 各。 我 们 在 前 面 的 章节 中 讲 过 ， 上 下 
文 有 关 文 法 的 分 析 既 复杂 又 耗 时 ， 它 的 分 析 器 也 不 好 写 。 如 果 没 有 好 的 
模型 ， 这 个 分 析 器 写 出 来 很 难看 不 说 ， 还 有 很 多 情况 覆盖 不 了 。 比 如 这 
样 的 地 址 描述 : 


(深圳 市 ) 深 南 火 道 和 南山 大 道 交口 西 100 米 ， 


所 李 的 是 ， 地 址 的 文法 是 上 下 文 有 关 文 法 中 相对 简单 的 一 种 ， 因 此 有 许 
多 识别 和 分 析 的 方法 ,但 最 有 效 的 是 有 限 状态 机 。 


一 个 有 限 状 态 机 是 一 个 特殊 的 有 向 图 (参见 本 书 第 9 章 中 图 论 相 关 的 内 
容 ) ， 它 包括 一 些 状态 (节点 ) 和 连接 这 些 状态 的 有 向 纺 。 图 12.1 是 一 
个 识别 中 国 地 址 的 有 限 状 态 机 的 简单 例子 。 





12.1 识别 地 址 的 有 限 状态 机 


每 一 个 有 限 状 态 机 都 有 一 个 开始 状态 和 一 个 终止 状态 ， 以 及 若干 中 间 状 
态 。 每 一 条 狐 上 带 有 从 一 个 状态 进入 下 一 个 状态 的 条 件 。 比 如 ， 在 上 图 
中 ， 当 前 的 状态 是 “省 ”， 如 果 遇 到 一 个 词组 和 《〈 区 ) 县 名 有 关 ， 就 进 
人 状态 “区 县 ”; 如 果 遇 到 的 下 一 个 词组 和 城市 有 关 ， 那 么 就 进入 “市 - 
的 状态 ， 如 此 等 等 。 如 果 一 条 地 址 能 从 状态 机 的 开始 状态 经 过 状态 机 的 
若干 中 间 状 态 ， 走 到 终止 状态 ,那么 这 条 地 址 就 有 效 ， 和 否则 无 效 。 比 如 ， 
“北京 市 双 清 路 83 号 ”对 于 上 面 的 有 限 状态 来 讲 有 效 ， 而 “上 海 市 辽宁 
省 马 家 庄 ” 则 无 效 (因为 无 法 从 “市 ” 走 回 到 “省 ”) 。 


1 
很 多 商家 还 真是 这 
么 描述 它们 的 地 址 。 
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使 用 有 限 状 态 机 识别 地 址 ， 关 键 要 解决 两 个 问题 ， 即 通过 一 些 有 效 的 地 
址 建立 状态 机 ， 以 及 给 定 一 个 有 限 状态 机 后 ， 地 址 字 串 的 匹配 算法 。 好 
在 这 两 个 问题 都 有 现成 的 算法 。 有 了 关于 地 址 的 有 限 状 态 机 后 ， 就 可 以 用 
它 分 析 网 页 ， 找 出 网 页 中 的 地 址 部 分 ,建立 本 地 搜索 的 数据 库 。 同 样 ， 也 
可 以 对 用 户 输入 的 查询 进行 分 析 ， 挑 出 其 中 描述 地 址 的 部 分 ， 当 然 ， 镁 
下 的 关键 词 就 是 用 户 要 找 的 内 容 。 比 如 ， 对 于 用 户 输入 的 “北京 市 双 清 
路 附近 的 酒家 ”，Google 本 地 会 自动 识别 出 地 址 “北京 市 双 清 路 ”和 要 
找 的 对 象 “ 酒 家 ”。 


上 述 基 于 有 限 状 态 机 的 地 址 识别 方法 在 实用 中 会 有 一 些 问题 ， 当 用 户 输 
人 的 地 址 不 太 标 准 或 者 有 错别字 时 ， 有 限 状 态 机 会 束手无策 ， 因 为 它 只 
能 进行 严格 匹配 。 ( 其实， 有 限 状 态 机 在 计算 机 科学 中 早期 的 成 功 应 用 
是 在 程序 语言 编译 器 的 设计 中 。 一 个 能 运行 的 程序 在 语法 上 必须 是 没有 
错 的 ， 所 以 不 需要 模糊 匹配 。 而 目 然 语 言 则 很 随意 ， 无 法 用 简单 的 语法 
描述 。 ) 


为 了 解决 这 个 问题 ,我 们 希望 看 到 可 以 进行 模糊 匹配 ， 并 给 出 一 个 字 串 
为 正确 地 址 的 可 能 性 。 为 了 实现 这 一 目的 ， 科 学 家 们 提出 了 基于 概率 的 
有 限 状态 机 。 这 种 基于 概率 的 有 限 状 态 机 和 离散 的 马尔 可 夫 链 〈 详 见 前 
面 关 于 马尔 可 夫 模 型 的 章节 ) 基本 上 等 效 。 


在 上 个 世纪 80 年 代 以 前 ， 尽 管 有 不 少 人 使 用 基于 概率 的 有 限 状态 机 ， 但 
都 是 为 自己 的 应 用 设计 专用 的 有 限 状态 机 的 程序 。 上 个 世纪 90 年 代 以 后 ， 

随 着 有 限 状 态 机 在 自然 语言 处 理 上 的 广泛 应 用 ， 不 少 科 学 家 致力 于 编写 
通用 的 有 限 状态 机 程序 库 。 其 中 ， 最 成 功 的 是 前 AT&T 实验 室 的 三 位 科 
学 家 , 莫 瑞 ( Mehryar Mohri )、 皮 耶 尔 (Fernando Pereira ) 和 瑞 利 (Michael 
Riley ) 。 他 们 三 人 花 了 很 多 年 时 间 ， 编 写成 一 个 通用 的 基于 概率 的 有 限 
状态 机 C 语言 工具 库 。 由 于 AT&T 有 对 学 术 界 免费 提供 各 种 编程 工具 的 
好 传统 ， 他 们 三 人 也 把 自己 多 年 的 心血 拿 出 来 和 同行 们 共享 。 可 惜 好景 
不 长 ，AT&T 实验 室 风光 不 再 ， 这 三 个 人 都 离开 了 AT&T， 莫 瑞 成 了 组 
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约 大 学 的 教授 ; 皮 敢 尔 先 当 了 宾 锈 法 尼 亚 大 学 的 计算 机 系 主任 ,而 后 成 
为 Google 的 研究 总 监 ; 而 瑞 利 直接 成 为 Google 的 研究 员 。 有 一 段 时 间 ， 
AT&T 实验 室 的 新 东家 不 再 免费 提供 有 限 状态 机 C 语言 工具 库 。 虽 然 此 
前 莫 瑞 等 人 公布 了 他 们 的 详细 算法 “， 但 是 省 略 了 实现 的 细节 。 因 此 , 在 
学 术 界 ， 不 少 科 学 家 能 够 重 写 同 样 功能 的 工具 库 ， 但 是 很 难 达 到 AT&T 
工具 库 的 效率 ( 即 运算 速度 ) , 这 一 度 是 一 件 令 人 遗憾 的 事 。 但 是 近年 来 ， 
随 着 开源 软件 在 世界 上 的 影响 力 越 来 越 大 ，AT&T 又 重新 开放 了 这 个 工 
具 的 源 代码 。 有 限 状 态 机 的 程序 不 是 很 好 写 ， 它 要 求 编程 者 既 慌 得 里 面 
的 原理 和 技术 细节 ， 又 要 有 很 强 的 编程 能 力 ， 因 此 建议 大 家 直接 采用 开 
源 的 代码 就 好 。 


2 全 球 寻 航 和 动态 规划 


全 球 导 航 的 关键 算法 是 计算 机 科学 图 论 中 的 动态 规划 (Dynamic 
Programming ) 的 算法 。 





na 看 证 宁 
图 12.2 中国 公路 图 是 一 个 特殊 的 加 权 图 


2 
http://www.cs. 
nyu.edu/~mohris 
pubi/cslO1.pdf 


116 | 用 数学 之 美 


在 图 论 中 ， 一 个 抽象 的 图 包括 一 些 节 点 和 连接 它们 的 弧 。 如 果 再 考 
虑 每 条 弧 的 长 度 ， 或 者 说 权重 ， 那 么 这 个 图 就 是 加 权 图 (Weighted 
Graph ) 。 比 如 说 中 国 公路 网 就 是 一 个 很 好 的 “加 权 图 ”例子 : 每 个 城市 
是 一 个 节 氮 ,每 一 条 公路 是 一 条 绝 。 图 中 弧 的 权重 对 应 于 地 图 上 的 上 距离， 
或 者 是 行车 时 间 、 过 路 费 金额 ， 等 等 。 图 论 中 很 常见 的 一 个 问题 是 要 找 
一 个 图 中 给 定 两 个 点 之 间 的 最 短路 径 ( Shortest Path ) 。 比 如 ， 想 找到 从 
北京 到 广州 的 最 短 行 车 路 线 或 者 最 快 行车 路 线 。 当 然 ， 最 直接 的 笨 办 法 
是 把 所 有 可 能 的 路 线 看 一 壳 ， 然 后 找到 最 优 的 。 这 种 办 法 只 有 在 节点 数 
是 个 位 数 的 图 中 还 行 得 通 ， 当 图 的 节点 数 《〈 城 市 数目 ) 有 几 十 个 的 时 
候 ， 计 算 的 复杂 度 就 已 经 让 人 甚至 计算 机 难以 接受 了 上 ， 因 为 所 有 可 能 路 
径 的 个 数 随 着 节点 数 的 增长 而 呈 指 数 〈 或 者 说 几何 级 数 ) 增长 ， 也 就 
是 说 ， 每 增加 一 个 城市 ， 复 杂 度 要 大 一 倍 。 显 然 导 航 系统 不 会 用 这 种 洽 
办 法 一 -任何 导航 仪 或 者 导航 软件 都 能 在 几 秒 钟 内 就 找到 最 佳 行车 路 线 。 


所 有 的 导航 系统 采用 的 都 是 动态 规划 的 办 法 ， 这 里 面 的 Programming 一 
词 在 数学 上 的 含义 是 “规划 ”， 不 是 计算 机 里 的 “编程 ”。 动 态 规 划 的 
原理 其 实 很 简单 。 以 上 面 的 问题 为 例 ， 当 我 们 要 找 从 北京 到 广州 的 最 短 
路 线 时 ， 先 不 妨 倒 过 来 想 这 个 问题 : 假如 已 经 找到 了 所 要 的 最 短路 线 ( 称 
为 路 线 一 ) ， 如 果 它 经 过 郑州 ， 那 么 从 北京 到 郑州 的 这 条 子路 线 〈 比如 
是 北京 一 保定 一 石家庄 一 郑州 ， 暂 定 为 子路 线 一 ) ， 必 然 也 是 所 有 从 北 
京 到 郑州 的 路 线 中 最 短 的 。 否 则 ， 可 以 假定 还 存在 从 北京 到 郑州 更 短 的 
路 线 ( 比如 北京 一 济南 一 徐州 一 郑州 ， 暂 定 为 子路 线 二 ) ， 那 么 只 要 用 
这 第 二 条 子路 线 代替 第 一 条 ， 就 可 以 找到 一 条 从 北京 到 广州 全 程 更 短 的 
路 线 ( 称 为 路 线 二 ) ， 这 就 和 我 们 讲 的 路 线 一 是 北京 到 广州 最 短 的 路 线 
相 矛 盾 。 其 矛盾 的 根源 在 于 ,假设 的 子路 线 二 或 者 不 存在 ,或 者 比 子路 
线 一 还 来 得 长 。 


在 实际 实现 这 个 算法 时 ， 我 们 又 正 过 来 解决 这 个 问题 ， 也 就 是 说 ， 要 想 
找到 从 北京 到 广州 的 最 短路 线 , 先 要 找到 从 北京 到 郑州 的 最 短路 线 。 当 然 ， 
聪明 的 读者 可 能 已 经 发 现 其 中 的 一 个 “漏洞 ”， 就 是 在 还 没有 找到 全 程 
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了 最 短路 线 前 ， 不 能 肯定 它 一 定 经 过 郑州 。 不 过 没有 关系 ， 只 要 在 图 上 横 切 
一 思 ， 这 一 刀 要 保证 将 任何 从 北京 到 广州 的 路 线 一 分 为 二 ， 如 图 12.3。 


je 
她 秆 六 


到 庆 yA A 
pw 
党 全 


fF 下 注 





12.3 ”从 北京 到 广州 的 路 线 必须 经 过 图 中 粗 线 上 的 某 个 城市 


那么 从 广州 到 北京 的 最 短路 径 必须 经 过 这 一 条 线 上 的 某 个 城市 〈 乌 鲁 木 
齐 、 西 宁 、 兰 州 、 西 安 、 郑 州 、 济 南 ) 。 我 们 可 以 先 找到 从 北京 出 发 到 
这 条 线 上 所 有 城市 的 最 短路 径 ， 最 后 得 到 的 全 程 最 短路 线 一 定 包括 这 些 
局 部 最 短路 线 中 的 一 条 ， 这 样 ， 就 可 以 将 一 个 “寻找 全 程 最 短路 线 ” 的 
问题 ， 分 解 成 一 个 个 寻找 局 部 最 短路 线 的 小 问题 。 只 要 将 这 条 横 切 线 从 
北京 向 广州 推移 ， 直 到 广州 为 止 ， 我 们 的 全 程 最 短路 线 就 找到 了 。 这 便 
是 动态 规划 的 原理 。 采 用 动态 规划 可 以 大 大 降低 最 短路 径 的 计算 复杂 度 。 
在 上 面 的 例子 中 ， 每 加 入 一 条 横 切线 ， 线 上 平均 有 10 个 城市 ， 从 广州 到 
北京 最 多 经 过 15 个 城市 ， 那 么 采用 动态 规划 的 计算 量 是 10x10x15, 而 
采用 穷 举 路 径 的 每 办 法 是 10 的 15 次 方 ， 前 后 差 了 万 亿 售 。 


正确 的 数学 模型 可 以 将 一 个 计算 量 看 似 很 大 的 问题 的 计算 复杂 度 大 大 降 
低 。 这 便 是 数学 的 妙用 。 
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3 ”延伸 阅读 : 有 限 状态 传感器 
读者 背景 知识 : 图 论 。 


有 限 状 态 机 的 应 用 远 不 止 地 址 的 识别 ,今天 的 语音 识别 解码 器 基本 上 是 
基于 有 限 状 态 机 的 原理 。 另 外 ， 它 在 编译 原理 、 数 字 电 路 设计 上 有 着 非 
常 重要 的 应 用 ， 因 此 在 这 里 给 出 有 限 状 态 机 严格 的 数学 模型 。 


定义 (有 限 状 态 机 ) : 有 限 状 态 机 是 一 个 五 元 组 (3,5, so,6,f) ， 其 中 : 


5 是 输入 符号 的 集合 ， 

$s 是 一 个 非 空 的 有 限 状 态 集合 ， 

so 是 $ 中 的 一 个 特殊 状态 ， 起 始 状 态 ， 

5 是 一 个 从 空间 Sx 到 5 的 映射 函数 , 即 8:5 x 了 一 5。 

f 是 5 中 另外 一 个 特殊 状态 ,终止 状 态 。 

这 里 面 映射 函数 5 对 于 一 些 变量 ， 即 状态 和 输入 符号 的 组 合 可 能 没有 合适 
的 对 应 状态 ( 函数 值 ) , 也 就 是 说 , 在 一 些 状态 下 , 有 的 符号 不 能 被 接收 ， 
比如 在 12.1 的 例子 中 , 进入 到 城市 这 个 状态 后 , 对 于 “省 份 ”这 样 的 输入 
就 进入 不 了 新 的 状态 了 。 这 时 ， 有 限 状 态 机 就 会 发 出 出 错 信号 。 如 果 一 个 


状态 序列 在 有 限 状 态 机 中 能 够 从 So 开始 经 过 一 些 状态 进入 终止 状态 f， 那 
么 它 就 是 可 以 由 这 个 有 限 状 态 机 生成 的 合法 序列 ， 反 之 则 不 是 。 





12.4 ”有 限 状态 机 中 一 些 状态 和 输入 符号 的 组 合 没 有 合适 的 对 应 状态 ， 这 时 可 以 把 它们 对 
应 到 出 错 状 态 
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有 限 状 态 机 在 语音 识别 和 自然 语言 理解 中 起 着 非常 重要 的 作用 ， 不 过 
这 些 领 域 使 用 的 是 一 种 特殊 的 有 限 状 态 机 一 加 权 的 有 限 状 态 传 感 器 

( Weighted Finite State Transducer， 简 称 WFST ) 。 下 面 介 绍 WEFST 及 
其 构造 和 用 法 。 


有 限 状 态 传 感 器 (Finite State Transducer ) 的 特殊 性 在 于 ， 有 限 状 态 机 
中 的 每 个 状态 由 输入 和 输出 符号 定义 。 如 图 12.5。 


is:is/0.5 better:better /0.7 
ee 
are:are/0.5 
WOrse:wWworse/0.3 
is:isZ1 


12.5 有 限 状 态 传感器 


状态 4 的 定义 是 “输入 为 is 或 者 are， 输出 为 better 或 者 worse” 的 状 
态 。 不 管 整个 符号 序列 前 后 如 何 ， 只 要 在 某 一 时 刻 前 后 的 符号 为 is / are 
和 better/worse 的 组 合 ， 就 能 进入 此 状态 。 状 态 可 以 有 不 同 输入 和 输出 ， 
如 果 这 些 输入 和 输出 的 可 能 性 不 同 ， 即 赋予 了 不 同 的 权重 ， 那 么 相应 的 
有 限 状 态 传感器 就 是 加 权 的 。 对 比 我 们 在 第 2 章 “ 自 然 语言 处 理 ” 中 提 
到 的 二 元 模型 ， 读 者 可 能 会 发 现任 何 一 个 词 的 前 后 二 元 组 ， 都 可 以 对 应 
到 WEFST 的 一 个 状态 。 因 此 ，WFST 是 天 然 的 自然 语言 处 理 的 分 析 工 具 
和 解码 工具 。 


在 语音 识别 中 ， 每 个 被 识别 的 甸子 都 可 以 用 一 个 WEFST 来 表示 。 


is:is/0.5 better:better/0.7 





data:data/0.66 (; 5: 


i 


using:using/1 Aare:are/0.5 
C1) Worse:worse/0.3 
深 导 演 is:isA1 


intuition:intuition/0.33 全 …… 光 


图 12.6 摘 述 的 一 句 话 的 语音 的 识别 结果 ， 句 子 的 意思 是 “使 用 数据 好 ， 使 用 直觉 不 好 
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WFST 中 的 每 一 条 路 径 就 是 一 个 候选 的 句子 ， 其 中 概率 最 大 的 那 条 路 径 
就 是 这 个 句子 的 识别 结果 。 而 这 个 算法 的 原理 是 上 节 介 绍 的 动态 规划 。 


4 小 结 


有 限 状 态 机 和 动态 规划 的 应 用 非常 广泛 ， 远 远 不 止 识 别 地 址 、 导 航 等 地 
图 服务 相关 领域 。 它 们 在 语音 识别 、 拼 写 和 语法 纠 错 、 拼 音 输 入 法 、 工 
业 控 制 和 生物 的 序列 分 析 等 领域 都 有 着 极其 重要 的 应 用 。 其 中 在 拼音 答 
入 法 中 的 应 用 后 面 还 要 再 介绍 。 


天 考 文献 : 


1. MehryarMohri, Fernando Pereira, Michael Riley Weighted finite-state transducers jn 
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第 13 侍 Google AK-47 的 设计 者 
-一 阿 米 特 . 举 格 博士 


枪 迷 或 者 看 过 尼古拉斯 ' 凯 奇 ( Nicolas Cage ) 主 演 的 电影 “战争 之 王 ”( Lord 
of War ) 的 人 也 许 还 记得 影片 开头 的 一 段 话 : (在 所 有 轻武器 中 ) 最 有 名 
的 是 AK-47 冲锋 枪 ( 也 就 是 中 国 五 六 式 冲 锋 枪 的 原型 ， 全 世界 共 制 造 了 
7 500 万 支 , 男 外 制造 了 一 亿 支 “兼容 ”的 ) , 因为 它 从 不 卡 完 , 不 易 损坏 ， 
可 在 任何 环境 下 使 用 ， 可 靠 性 好 ， 杀 伤 力 大 并 且 操 作 简单 。 





13.1 AK-47 冲锋 枪 


我 认为 ， 在 计算 机 科学 领域 ， 一 个 好 的 算法 应 该 像 AK-47 冲锋 枪 那 
样 : 简单 、 有 效 、 可 靠 性 好 而 且 容 易 读 懂 〈 或 者 说 易 操作 ) ， 而 不 应 该 
是 故弄玄虚 。Google Fellow、 美 国 工程 院 院 士 阿 米 特 ' 注 格 博士 (Amit 
Singhal ) 就 是 Google AK-47 的 设计 者 ， 在 公司 内 部 ，Google 的 排序 算 
法 Ascorer 里 面 的 A 便 是 他 的 名 字 首 字母 。 
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1 
对 于 搜索 反 作 葡 ， 
以 后 还 要 专门 讲述 。 


z 

在 Google 创业 时 
期 ， 我们 周末 一 般 
是 不 休息 的 。 


从 加 入 Google 的 第 一 天 ， 我 就 开始 了 和 辛 格 四 年 愉快 的 合作 ， 而 他 一 直 是 
我 的 良师益友 。 辛 格 、 马 特 . 柯 菊 〈《Matt Cutts， 中 国 一 些 用 户 误 认 为 他 
是 联邦 调查 局 特工 ， 当 然 他 不 是 ) 、 马 丁 . 柯 斯 尔 基 ( Martin Kaszkie] ) 
和 我 四 个 人 一 同 研究 和 解决 网 络 搜索 中 的 作弊 问题 (Spam ) 。 我 们 发 现 
绝 大 多 数 作 刺 的 搜索 都 多 少 有 些 商 业 意 图 。 这 也 合情合理 ， 因 为 利益 使 然 。 
因此 ， 我 们 需要 建 一 个 分 类 器 ， 准 确 区 分 一 个 搜索 是 否 有 商业 意图 。 我 
以 前 一 直 在 学 术 界 学 习 和 工作 ， 几 事 倾向 于 寻找 完美 的 解决 方案 。 设 计 一 
个 可 用 的 、 漂 亮 的 分 类 器 对 我 来 讲 不 是 难事 ， 但 是 实现 和 训练 它 大 约 要 花 
三 四 个 月 的 时 间 ， 当 时 Google 还 没有 MapReduce 这 种 并 行 计 算 工 具 ， 复 
杂 的 机 器 学 习 非 常 耗 时 。 而 辛 格 认为 找 个 简单 有 效 的 办 法 就 行 了 ， 他 问 我 
实现 一 个 最 简单 可 用 的 分 类 器 大 约 需 要 多 少时 间 , 我 说 一 个 周末 “可 能 就 够 
了 。 周 一 我 把 分 类 器 完成 了 ， 问 他 是 否 还 需要 花 时 间 去 实现 一 个 完美 的 方 
案 。 辛 格 看 了 看 结果 说 ，“ 够 好 了 ， 够 好 了 ， 在 工程 上 简单 实用 的 方法 最 
好 。” 我 们 就 依照 这 个 原则 ， 对 其 他 问题 也 是 找 简单 实用 的 方案 ， 结 果 一 
两 个 月 就 把 作弊 的 数量 减少 了 一 半 。 当 时 我 们 和 公司 工程 副 总 裁 韦 恩 ' 罗 
森 (Wayne Rosing ) 打 了 个 财 ， 如 果 我 们 能 减少 40% 的 作 次 ， 他 就 给 我 们 
发 工程 奖 ， 送 我 们 四 个 家 在 (不 止 是 四 个 员工 ) 去 夏威夷 度假 五 天 。 这 个 
反 作 岗 的 算法 上 线 后 ， 罗 生 真 的 履约 了 。 谢 尔 盖 ， 布 林 问 我 霸 么 在 这 人 么 短 
的 时 间 里 实现 这 么 些 功能 。 我 告诉 他 其 实 方法 很 简单 。 布 林 讲 ，“ 哦 ， 那 
就 像 AK-47 自动 步枪 。” 这 个 分 类 器 设计 得 非常 小 巧 (只 用 很 小 的 内 存 ) ， 
而 且 非 常 快 速 ( 几 台 服务 器 就 能 处 理 全 球 搜 索 的 分 类 ) ， 至 今 运行 得 很 好 ， 
即使 在 我 离开 Google 后 ， 依 然 在 使 用 。 这 项 技术 ， 也 是 Google 取得 的 第 
一 个 反 作 瞪 方面 的 美国 专利 。 


后 来 我 和 辛 格 一 起 又 完成 了 许多 项 目 ， 包 括 对 中 、 日 、 韩 文 排名 新 算法 
的 设计 和 实现 。 在 2002 年 ，Google 虽然 支持 对 70 种 语言 的 检索 ， 但 是 
所 有 的 语言 只 有 一 个 排名 算法 。 当 时 的 国际 化 工作 仅仅 局 限于 翻译 界面 
和 字符 编码 的 适应 。 辛 格 找 我 来 一 起 做 一 个 全 新 的 中 、 日 、 韩 文 搜索 算 
法 。 说 实话 ， 我 当时 对 特定 语言 的 搜索 不 感 兴趣 ， 但 是 公司 只 有 我 一 个 
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学 自然 语言 处 理 的 中 国人 , 而 当时 的 中 日 韩 搜索 结果 相 比 英文 又 很 “ 烂 ”， 
这 件 事 便 落 到 了 我 的 涉 上 。 有 了 上 次 的 经 验 ， 我 这 次 也 干脆 直接 用 了 一 - 
个 “简单 ”的 方案 。 这 个 方法 效果 虽然 很 好 ,但 是 占用 内 存 较 多 ， 当 然 
Google 的 服务 器 数量 还 没有 现在 这 么 多 ,不 可 能 为 了 中 日 韩 这 三 个 占 总 
流量 不 到 10% 的 语言 额外 增加 一 批 服务 器 。 辛 格 提出 用 一 个 拟 合 函数 替 
代 很 耗 内 存 的 语言 模型 ， 这 样 不 需要 增加 任何 服务 器 。 人 但是， 这样 一 来 
搜索 质量 的 提高 幅度 只 有 原来 采用 大 模型 时 的 80%。 我 对 此 多 少 有 点 不 
甘心 。 笠 格 解释 说 ， 这 样 可 以 让 我 们 至 少 早 两 个 月 将 这 个 新 算法 提供 给 
中 国 的 用 户 ， 他 们 的 用 户 体验 将 比 现 在 有 质 的 提高 ， 这 是 雪中送炭 。 我 
们 暂时 放弃 掉 的 20% 收益 ， 对 他 们 来 讲 是 锦上添花 的 事 。 我 接受 了 他 的 
建议 , 在 2003 年 初 我 发 布 了 第 一 个 专门 为 中 日 韩语 言 设计 的 搜索 算法 。 
一 年 后 ，Google 的 服务 器 数量 也 有 所 增加 。 我 在 模型 讨 缩 上 也 有 了 进步 ， 
这 时 便 发 布 了 完整 的 中 日 韩语 言 搜索 算法 。 辛 格 这 种 做 事情 的 哲学 ， 即 
先 帮 助 用 户 解决 80% 的 问题 ， 再 慢 慢 解决 剩 下 的 20% 问题 ， 是 在 工业 界 
成 功 的 秘诀 之 一 许多 失败 并 不 是 因为 人 不 优秀 , 而 是 做 事情 的 方法 不 对 ， 
一 开始 追求 大 而 全 的 解决 方案 ， 之 后 长 时 间 不 能 完成 ， 最 后 不 了 了 之 。 


在 Google 里 ， 辛 格 一 直 坚 持 寻 找 简 单 有 效 的 解决 方案 ， 因 为 他 奉行 简单 
的 哲学 。 但 是 这 种 做 法 在 Google 这 个 人 才 济 济 的 公司 里 常常 招 人 反对 ， 
因为 很 多 资深 的 工程 师 倾 向 于 低估 简单 方法 的 有 效 性 。2003-2004 年 ， 
Google 从 世界 上 很 多 知名 实验 室 和 大 学 ， 比 如 MITRE”、AT&T 实验 室 
和 IBM 实验 室 ， 招 挠 了 不 少 自然 语言 处 理 的 科学 家 。 不 少 人 试图 用 精确 
而 复杂 的 办 法 对 辛 格 设计 的 各 种 “AK-47” 进 行 改进 ， 后 来 发 现 几 乎 所 
有 时 候 , 辛 格 的 简单 方法 都 接近 最 优 的 解决 方案 , 而 且 还 快 得 多 。 这 些 “ 徒 
劳 者 ”中 包括 两 个 世界 级 的 人 物 ， 乌 迪 ' 曼 波 ( Udi Manber ) 和 费 尔 南 
多 . 皮 耶 尔 (Fernando Pereira ) 。 


2006 年 夏天 ， 乌 迪 ， 上 学 波 加 盟 Google。 曼 波 是 世界 上 最 早 一 批 研究 搜 
索 的 学 者 ， 之 前 是 大 学 教授 、 雅 虎 的 首席 科学 家 和 首席 算法 官 ( Chief 
Algorithm Officer， 这 个 职务 有 点 无 聊 ) 和 亚马逊 搜索 引擎 A9 的 CEO。 


3 
世界 其 名 的 情报 处 
理 实 验 室 ， 主 要 为 
美国 国防 部 、 国 家 
安全 局 (NSA) 等 
机 梅 进行 情报 处 理 
的 研究 以 及 保密 情 
报 (Classified ) 的 
处 理 。 
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曼 波 一 来 就 召集 了 十 几 名 科学 家 和 了 工程师， 利用 机 器 学 习 的 方法 来 改进 
辛 格 的 那些 简单 模型 。 经 过 半年 的 努力 ， 曼 波 发 现 他 似乎 是 在 做 无 用 
功 , 一 年 后 彻底 放弃 了 这 方面 的 努力 、 从 此 转向 人 事 管理 工作 。2008 年 ， 
Google 花 了 很 大 代价 动员 了 世界 著名 的 语音 识别 和 自然 语言 处 理 专 家 、 
究 夕 法 尼 亚 大 学 计算 机 系 主 任 费 尔 南 多 . 皮 耶 尔 加 盟 。 皮 耶 尔 是 辛 格 在 
AT&T 时 的 直接 上 司 , 著名 的 有 限 状 态 机 AT&T FST 工具 的 作者 之 一 。 
皮 耶 尔 和 辛 格 对 做 好 计算 机 搜索 的 认识 完全 不 同 。 皮 耶 尔 认为 最 好 的 计 
算 机 搜索 算法 一 定 要 先 理解 文本 的 意思 ， 然 后 才能 准确 检索 。 因 此 ， 提 
高 搜索 质量 的 关键 是 文本 的 句法 分 析 。 辛 格 认为 ,计算 机 不 必 学 习 人 的 
做 法 ， 就 如 同 飞 机 不 必 像 鸟 一 样 飞行 。 在 Google 内 部 两 人 的 关系 已 经 反 
了 个 个 儿 ， 辛 格 成 了 唱主角 的 。 他 原本 希望 皮 耶 尔 能 在 他 自己 的 基础 上 
帮 他 更 上 一 层 楼 ， 但 是 皮 耶 尔 的 技术 路 线 和 辛 格 明显 不 同 。 碍 于 老 上 辣 
的 情 面 ， 辛 格 只 好 由 着 皮 耶 尔 按照 自己 的 想法 做。 布 林 考虑 到 花 了 很 大 
代价 请 来 皮 耶 尔 ， 在 资源 上 也 给 了 他 足够 的 支持 。 但 是 ， 三 年 下 来 皮 耶 
尔 的 团队 还 是 毫 无 建树 。 这 可 能 也 可 以 解释 为 什么 微软 投入 了 几 十 亿美 
元 在 搜索 上 依然 难以 超过 Google。 


辛 格 坚持 选择 简单 方案 的 另 一 个 原因 是 容易 解释 每 一 个 步骤 和 方法 背后 
的 道理 ， 这 样 不 仅 便于 出 了 问题 时 查 错 (Pebug ) ， 而 且 容易 找到 今后 改 
进 的 昌 标 。 今天 , 整个 业界 的 搜索 质量 比 十 多 年 前 仇 奇 和 布 林 开始 研究 搜 
索 时 已 经 有 了 很 大 的 提高 ,大 的 改进 之 处 已 经 不 存在 了 。 现 在 几乎 所 有 的 
改进 都 非常 细微 : 通常 对 一 类 搜索 有 改进 的 方法 , 会 对 另外 某 一 类 搜索 产 
生 稍 稍 负面 的 影响 。 这 时 候 ， 需 要 很 清楚 “所 以 然 ”， 才 能 找 出 这 个 方 
法 产生 负面 影响 的 原因 和 场景 ， 并 且 避 免 它 的 发 生 。 对 于 非常 复杂 的 方 
法 ,尤其 是 像 黑 盒 子 似 的 基于 机 器 学 习 的 方法 ， 这 一 点 是 做 不 到 的 。 而 
如 果 每 一 项 改进 都 是 有 得 有 失 ， 甚 至 得 失 相 差 无 几 ， 那 么 长 期 下 来 搜索 
的 质量 不 会 有 什么 明显 提升 。 辛 格 要 求 对 于 搜索 质量 的 改进 方法 都 要 能 
说 清楚 理由 ， 说 不 清楚 理由 的 改进 即使 看 上 去 有 效 也 不 会 采用 ， 因 为 这 
样 将 来 可 能 是 个 隐患 。 这 一 点 和 微软 、 雅 虎 把 搜索 质量 提升 当 作 一 个 黑 


第 13 章 ”Google AK-47 的 设计 者 一 阿 米 特 - 辛 格 博士 咱 125 


盒子 完全 不 同 。 辛 格 的 做 法 基本 上 能 保证 Google 搜索 的 质量 长 期 来 讲 是 
稳步 提高 。 


当然 ， 辛 格 之 所 以 总 是 能 找到 那些 简单 有 效 的 方法 ， 不 是 靠 直 觉 ,， 更 不 
是 撞 大 运 ， 这 首先 是 靠 他 丰富 的 研究 经 验 。 辛 格 早年 师 从 于 搜索 大 师 萨 
尔 顿 ( Salton ) 教授 ， 毕 业 后 就 职 于 AT&T 实验 室 。 在 那里 ， 他 和 两 个 
同事 半年 就 搭建 了 一 个 中 等 规模 的 搜索 引擎， 这 个 引擎 索引 的 网 页 数量 
虽然 无 法 和 商用 引 警 相 比 ， 但 是 准确 性 却 非常 好 。 早 在 AT&T， 他 就 
对 搜索 问题 的 各 个 细节 进行 了 仔细 的 研究 ， 他 的 那些 简单 而 有 效 的 解决 
方案 ， 常 常 是 深思 熟 虑 去 伪 存 真 的 结果 。 其 次 ， 辛 格 坚 持 每 天 要 分 析 一 
些 搜索 结果 不 好 的 例子 ， 以 掌握 第 一 手 的 资料 ， 即 使 在 他 成 为 Google 
Fellow 以 后 ， 依 旧 如 此 。 这 一 点 ， 非 常 值得 从 事 搜索 研究 的 年 轻 工 程 师 
学 习 。 事 实 上 ,我 发 现 中 国 大 部 分 做 搜索 的 工程 师 在 分 析 不 好 的 结果 上 
花 的 时 间 远 比 功成名就 的 辛 格 要 少 。 


玉 格 非常 歌 励 年 轻 人 要 不 怕 失 败 ， 大 胆 尝 试 。 有 一 次 ， 一 位 刚 毕 业 不 久 
的 工程 师 因为 把 带 有 错误 的 程序 推出 到 Google 的 服务 器 上 而 悍 悍 不 可 终 
日 。 辛 格 安奈 她 说 ， 你 知道 ， 我 在 Google 犯 的 最 大 一 次 错误 是 曾经 将 所 
有 网 页 的 相关 性 得 分 全 部 变 成 了 零 ， 于 是 所 有 搜索 的 结果 全 部 是 随机 的 
了 。 这 位 工程 师 后 来 为 Google 开发 了 很 多 好 产品 。 


竺 格 在 AT&T 实验 室 时 确立 了 他 在 学 术 界 的 地 位 ， 但 是 ， 他 不 满足 
于 只 是 做 实验 写 论文 ， 于 是 他 离开 实验 室 ， 来 到 当时 上 只 有 百 十 叶 人 的 
Google。 在 这 里 ， 他 得 以 施展 才智 ， 重 写 了 Google 的 排名 算法 ， 并 且 一 
直 在 负责 改进 它 。 辛 格 因 为 会 不 得 放下 两 个 孩子 , 很 少 参 加 各 种 会 议 ， 
但 是 他 仍然 被 学 术 界 公认 为 是 当今 最 权威 的 网 络 搜 索 专 家 。2005 年 ， 辛 
格 作为 杰出 校友 被 请 回 母校 康 奈 尔 大 学 计算 机 系 ， 在 40 周年 系 庆 上 作 报 
告 。 获 得 这 一 殊荣 的 还 有 大 名 易 易 的 美国 工程 院 院 士 ， 计 算 机 独立 磁盘 
元 余 阵 列 ( RAID ) 的 发 明 人 山区 (Randy Katz ) 教授 。 


辛 格 和 我 在 性 格 和 生活 习惯 上 有 很 大 的 不 同 ， 他 基本 上 是 个 家 食 者 ， 至 
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少 过 去 我 不 是 很 喜欢 他 家 的 饭菜 。 但 是 我 们 有 一 点 非常 相似 ， 就 是 遵循 
简单 的 上 哲学。 


2012 年 ， 辛 格 当 选美 国 工程 院 院 士 ， 并 出 任 主管 Google 搜索 的 高 级 副 
总 裁 。 


第 14 剖 余弦 定理 和 新 闻 的 分 类 


世界 上 有 些 事 情 常常 超 平 人 们 的 想象 。 余 弦 定 理 和 新闻 的 分 类 似乎 是 两 件 
八 杆子 打 不 着 的 事 ， 但 是 它们 确 有 紧密 的 联系 。 具 体 地 说 ， 新 闻 的 分 类 很 
大 程度 上 依靠 余弦 定理 。 


2002 年 夏天 ,Google 推出 了 自己 的 “新 闻 ” 服 务 。 和 传统 媒体 的 做 法 不 同 ， 
这 些 新 闻 不 是 记者 写 的 ， 也 不 是 人 工 编辑 的 ， 而 是 由 计算 机 整理 、 分 类 和 
聚合 各 个 新 闻 网 站 的 内 容 ， 一 切 都 是 自动 生成 的 。 这 里 面 的 关键 技术 就 是 
新 闻 的 自动 分 类 。 


1 新 闻 的 特征 问 量 


所 谓 新 闻 的 分 类 ,或 者 更 广义 地 讲 任 何 文本 的 分 类 ， 无 非 是 要 把 相似 的 
新 闻 放 到 同一 类 中 。 如 果 让 编辑 来 对 新 闻 分 类 , 他 一 定 是 先 把 新 闻 读 和 改 ， 
然后 找到 它 的 主题 ， 最 后 根据 主题 的 不 同 对 新 闻 进 行 分 类 。 但 是 计算 机 
根本 读 不 懂 新 闻 ， 虽 然 一 些 商 业 人 士 和 爱 炫 浴 自 己 才学 的 计算 机 专家 宣 
称 计算 机 能 读 民 新闻。 计算 机 本 质 上 只 能 做 快速 计算 。 为 了 让 计算 机 能 
够 “ 算 ” 新 闻 ( 而 不 是 读 新 闻 ) ， 就 要 求 我 们 首先 要 把 文字 的 新 闻 变 成 
可 以 计算 的 一 组 数字 ， 然 后 再 设计 一 个 算法 来 算出 任意 两 篇 新 闻 的 相 
似 性 。 
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1 
“幸福 的 家 庭 都 是 相 
似 的 ， 不 幸 的 家 庭 
各 有 各 的 不 幸 ”。 


2 
如 果 把 词典 的 大 小 
限制 在 65 535 词 以 
内 ， 在 计算 机 中 只 
要 用 两 个 字 节 就 能 
表示 一 个 词 。 


中 数学 之 美 


首先 让 我 们 来 看 看 怎样 找 一 组 数字 ( 或 者 说 一 个 向 量 ) 来 描述 一 篇 新 闻 。 
新 闻 是 传递 信息 的 ， 而 词 是 信息 的 载体 ， 新 闻 的 信息 和 词 的 语义 是 联系 
在 一 起 的 。 套 用 俄罗斯 文豪 托 尔 斯 泰 在 《安娜 卡 列 尼 娜 》 开 篇 的 那 句 
话 来 讲 ， “同一 类 新 闻 用 词 都 是 相似 的 , 不 同类 的 新 闻 用 词 各 不 相同 ”。 
当然 ， 一 篇 新 闻 有 很 多 词 ， 有 些 词 表达 的 语义 重要 ， 有 些 相对 次 要 。 那 
么 如 何 确 定 哪 些 重要 ， 哪 些 次 要 呢 ? 首先， 直觉 告诉 我 们 含义 丰富 的 实 
词 一 定 比 “的 、 地 、 得 ”这 些 助词 ,或 者 “之 平 者 也 ”这 样 的 虚词 重要 ， 
这 点 是 肯定 的 。 接 下 来 ， 需 要 进一步 对 每 个 实 词 的 重要 性 进行 度量 。 回 
忆 一 下 我 们 在 “如 何 确 定 网 页 和 查询 的 相关 性 ”一 章 中 介绍 的 单 文本 词 
汇 频率 / 道 文本 频率 值 TF-IDF 的 概念 ， 在 一 篇 文章 中 ， 重 要 的 词 TF- 
IDF 值 就 高 。 不 难 想 象 ， 和 新 闻 主 题 有 关 的 那些 实 词 频率 高 ，TF-IDF 值 
很 大 。 


现在 我 们 找到 了 一 组 来 描述 新 闻 主 题 的 数字 : 对 于 一 篇 新 闻 中 的 所 有 实 
词 ， 计 算出 它们 的 TF-IDF 值 。 把 这 些 值 按照 对 应 的 实 词 在 词汇 表 的 位 
置 依次 排列 ， 就 得 到 一 个 向 量 。 比 如 ， 词 汇 表 中 有 64 000 个 词 “， 其 编号 
和 词 如 表 14.1 所 示 。 


表 14.1 统计 词汇 表 


单词 编号 字 词 
1 阿 
2 啊 
3 阿 半 
4 阿姨 
789 服装 
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在 某 一 篇 特定 的 新 闻 中 ,这 64000 个 词 的 TF-IDF 值 分 别 如 表 14.2 所 示 ; 


表 14.2 某 篇 新 闻 对 应 的 TF-IDF 值 


单词 编号 TF-IDF 值 


1 0 
2 0.0034 
3 0 
4 0.00052 
789 0.034 
64000 0.075 


如 果 单 词 表 中 的 某 个 词 在 新 闻 中 没有 出 现 ， 对 应 的 值 为 零 ， 那么 这 
64000 个 数 ， 组 成 一 个 64000 维 的 向 量 。 我 们 就 用 这 个 向 量 来 代表 这 篇 
新 闻 ， 并 成 为 新 闻 的 特征 向 量 ( Feature Vector ) 。 每 一 篇 新 闻 都 可 以 对 
应 这 样 一 个 特征 向 量 ， 向 量 中 每 一 个 维度 的 大 小 代表 每 个 词 对 这 篇 新 闻 
主题 的 贡献 。 当 新 闻 从 文字 变 成 了 数字 后 , 计算 机 就 有 可 能 “ 算 一 算 ” 
新 闻 之 间 是 否 相 似 了 。 


三 一- 0, 0，0，3，0，…，28，0，0，0，3 
王 一 -~-， 0，1，0，…，8，0，10，0，2 
三 一 ~ OO, 0, 32, 10, .…, 2, 0, 0, 3, 1 


14.1 一 篇 篇 文章 变 成 了 一 串 串 数字 
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2 问 量 距离 的 度量 


世界 各 国 无 论 是 哪 门 语言 的 “语文 课 ” (Language Art ) ， 老 师 教授 写 
作 时 都 会 强调 特定 的 主题 用 特定 的 描述 词 。 儿 于 年 来 ， 人 类 已 经 形成 了 
这 样 的 写作 习惯 。 因 此 ， 同一 类 新 闻 一 定 是 某 些 主题 词 用 得 较 多 ， 另 外 
一 些 词 则 用 得 少 。 比 如 金融 类 的 新 闻 ， 这 些 词 出 现 的 频率 就 很 高 : 股票 ， 
利 肪 , 债券 , 基金 , 银行 ,物价 , 上涨 。 而 这 些 词 出 现 的 就 少 : 二 氧化 碳 ， 
宇宙 ， 诗 歌 ， 本 匠 ， 诺 贝尔 ， 包 子 。 反 映 在 每 一 篇 新 闻 的 特征 上 ， 如 
果 两 篇 新 闻 属 于 同一 类 , 它们 的 特征 向 量 在 某 几 个 维度 的 值 都 比较 大 ,而 
在 其 他 维度 的 值 都 比较 小 。 反 过 来 看 ,如果 两 篇 新 闻 不 属于 同一 类 ， 由 于 
用 词 的 不 同 ,它们 的 特征 向 量 中 ， 值 较 大 的 维度 应 该 没有 什么 交集 。 这 
样 就 定性 地 认识 到 两 篇 新 闻 的 主题 是 否 接 近 , 取决 于 它们 的 特征 向 量 “ 长 
得 像 不 像 ”。 当 然 , 我们 还 需要 定量 地 衡量 两 个 特征 向 量 之 间 的 相似 性 。 


学 过 向 量 代数 的 人 者 知道， 向量 实 际 上 是 多 维 空 间 中 从 原点 出 发 的 有 加 
线段 。 


图 14.2 ”向 量 的 夹 角 是 衡量 两 个 向 硬 柏 近 程度 的 度量 。 图 中 左边 的 两 个 向 量 距离 较 近 ， 右 边 
两 个 距离 较 远 
不 同 的 新 闻 ， 因 为 文本 长 度 的 不 同 ， 它 们 的 特征 向 量 各 个 维度 的 数值 也 
不 同 。 一 篇 10 000 字 的 文本 ， 各 个 维度 的 数值 都 比 一 篇 500 字 的 文本 来 
得 大 ， 因 此 单纯 比较 各 个 维度 的 大 小 并 没有 太 大 意义 。 但 是 ， 回 量 的 方 
向 却 有 很 大 的 意义 。 如 果 两 个 向 量 的 方向 一 致 ， 说 明 相 应 的 新 闻 用 词 的 
比例 基本 一 致 。 因 此 ， 可 以 通过 计算 两 个 向 量 的 夹 角 来 判断 对 应 的 新 闻 
主题 的 接近 程度 。 而 要 计算 两 个 向 量 的 夹 角 ， 就 要 用 到 余弦 定理 了 。 比 
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如 上 图 14.2 中 ， 左 边 两 个 向 量 的 夹 角 小 ， 距 离 就 较 “ 近 ”， 相 反 ， 右 边 
两 个 向 量 的 夹 角 大 ， 距 离 就 “ 远 ”。 


我 们 对 余弦 定理 都 不 陌生 ， 它 描述 了 三 角形 中 任何 一 个 夹 角 和 三 个 边 的 
关系 ， 换 句 话 说 ， 给 证 三 角形 的 三 条 边 ， 可 以 用 余弦 定理 求 出 三 角形 各 
个 角 的 角度 。 假定 三 角形 的 三 条 边 为 a ,b 和 c , 对 应 的 三 个 角 为 A,B 和 CC。 


C 


A B 
图 14.3 ”余弦 的 计算 


那么 Z4 的 余 艾 


bz 十 2 _~2 
cos(A) 一 一 { 14.1 ) 


如 果 将 三 角形 的 两 边 b 和 c 看 成 是 两 个 以 4 为 起 点 的 向 量 ,， 那么 上 述 公 式 
等 价 于 


<b,c> 
cos(A) = oier ( 14.2) 


其 中 ,分 母 表 示 两 个 向 量 b 和 c 的 长 度 ， 分子 表 示 两 个 癌 量 的 内 积 。 举 一 
个 具体 的 例子 ,假如 新 闻 X 和 新 闻 Y 对 应 的 向 量 分 别 是 


Kis X2，…，X64000 和 Y1Y21 1 1Y64000 ， 


那么 它们 夹 角 的 余弦 等 于 


X171 十 X2yz 十 … 十 X64000764000 


VXI + Xz + "Kes000* VHF + YE + "yes000 (14.3) 


cos0 = 


132 儿 数学 之 美 


3 
目前 是 18M 华 生 实 
验 室 的 科学 家 。 


4 

Radu Florian and 
David Yarowsky, 
Dynamic nonlocal 
language modeling 
via hierarchical 
topic-based 
adaptation, ACL 
1999 


由 于 回 量 中 的 每 一 个 变量 都 是 正 数 ， 因 此 余弦 的 取 值 在 0 和 1 之 间 , 也 就 
是 说 夹 角 在 0 度 到 90 度 之 间 。 当 两 条 新 闻 向 量 夹 角 的 余弦 等 于 1 时 ,这 
两 个 向 量 的 夹 角 为 零 ， 两 条 新 闻 完 全 相同 ; 当 夹 角 的 余弦 接近 于 1 时 ， 两 
条 新 闻 相 似 ， 从 而 可 以 归 成 一 类 ; 夹 角 的 余弦 越 小 ， 夹 角 越 大 ， 两 条 新 
闻 越 不 相关 。 当 两 个 向 量 正 交 时 (90 度 ) ， 夹 角 的 余弦 为 零 ， 说明 两 篇 
新 闻 根 本 没有 相同 的 主题 词 ， 它 们 毫 不 相关 。 


现在 把 一 篇 篇 文字 的 新 闻 变 成 了 按 词典 顺序 组 织 起 来 的 数字 ( 特征 向 量 )， 
又 有 了 计算 相似 性 的 公式 ， 就 可 以 在 此 基础 上 讨论 新 闻 分 类 的 算法 了 。 具 
体 的 算法 分 为 两 种 情形 。 第 一 种 比较 简单 ， 假 定 我 们 已 知 一 些 新 闻 类 别 
的 特征 向 量 xxz…xk ， 那 么 对 于 任何 一 个 要 被 分 类 的 新 闻 了 Y， 很 容易 计 
算出 它 和 各 类 新 闻 特 征 向 量 的 余弦 相似 性 (距离 ) ， 并 且 分 到 它 该 去 的 那 
一 类 中 。 至 于 这 些 新 闻 类 别 的 特征 向 量 ， 既 可 以 手工 建立 (工作 量 非 常 
大 而 且 不 准确 ) ， 也 可 以 自动 建立 (以 后 会 介绍 ) 。 第 二 种 情形 就 比较 
麻烦 了 ， 即 如 果 事 先 没有 这 些 新 闻 类 别 的 特征 网 量 怎么 办 。 我 在 约翰 、 
霍 普 金 斯 大 学 的 同学 弗 洛 里 安 (Radu Florian )“ 和 教授 雅 让 斯 基 给 了 一 

个 自 底 向 上 不 渐 合 并 的 办 法 “， 大 致 思想 如 下 : 


l]， 计 算 所 有 新 闻 之 间 两 两 的 余弦 相似 性 ， 把 相似 性 大 于 一 个 阅 值 
的 新 闻 合 并 成 一 个 小 类 (Subclass ) 。 这 样 和 篇 新 闻 就 被 合并 成 和 个 
小 类 ， 当然 <AN。 


2. 把 每 个 小 类 中 所 有 的 新 闻 作为 一 个 整体 , 计算 小 类 的 特征 向 量 ， 
再 计算 小 类 之 闻 两 两 的 余弦 相似 性 ， 然 后 合并 成 大 一 点 的 小 类 ， 候 
如 有 ANz 个 ,当然 避 < Ni。 


这 样 不 断 做 下 去 , 类别 越 来 越 少 ,而 每 个 类 越 来 越 大 。 当 某 一 类 太 大 时 ， 
这 一 类 里 一 些 新 闻 之 间 的 相似 性 就 很 小 了 ， 这 时 就 要 停止 上 述 和 迭代 的 过 
程 了 。 至 此 ， 自 动 分 类 完成 。 下 图 是 弗 洛 里 安 给 出 的 一 个 真实 的 文本 分 
类 迭代 和 聚合 的 过 程 ， 图 中 左边 的 每 一 个 点 都 代表 一 篇 文章 ， 因 为 数量 
太 多 ,因此 密密麻麻 地 连 成 了 一 片 。 每 一 次 选 代 , 子 类 数量 就 不 断 减少 ， 
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当 子 类 的 数量 比较 少时 ， 就 会 看 清楚 这 些 子 类 了 。 





ud 


14.4 ”真实 的 文本 分 类 聚合 过 程 
当然 , 这 里 面 有 很 多 的 技术 细节 , 有 兴趣 和 基础 的 读者 可 以 读 他 们 的 论文 。 


弗 洛 里 安 和 雅 让 斯 基 1998 年 做 这 项 工作 的 动机 很 有 意思 。 当 时 雅 让 斯 基 
是 某 个 国际 会 议 的 程序 委员 会 主席 ,需要 把 提交 上 来 的 几 百 篇 论文 发 给 
各 个 专家 去 评审 决定 是 否 录 用 。 为 了 保证 评审 的 权威 性 ， 需 要 把 每 个 研 
究 方 问 的 论文 变 给 这 个 方向 最 有 权威 的 专家 。 虽 然 论 文 的 作者 自己 给 论 
文 定 了 方向 ， 但 是 范围 太 广 ， 没 有 什么 指导 意义 。 雅 让 斯 基 当 然 没 有 时 
间 浏 览 这 近 千 篇 论文 ， 然 后 再 去 分 发 ， 于 是 就 想 了 这 个 将 论文 自动 分 类 
的 方法 ， 由 他 的 学 生 弗 洛 里 安 很 快 实现 了 。 接 下 来 几 年 的 会 议 都 是 这 么 
选择 评审 专家 的 。 从 这 件 事 我 们 可 以 看 出 美国 人 做 事 的 一 个 习惯 : 美国 
人 总 是 倾向 于 用 机 器 ( 计算 机 ) 代替 人 工 来 完成 任务 。 虽 然 在 短期 需要 
做 一 些 额外 的 工作 ,但 是 从 长 远 看 可 以 节省 很 多 时 间 和 成 本 。 


余弦 定理 就 这 样 通过 新 闻 的 特征 向 量 和 新 闻 分 类 联系 在 一 起 。 我 们 在 中 
学 学 习 余 弦 定 理 时 , 铠 怕 很 难 想 象 它 可 以 用 来 对 新 闻 进行 分 类 。 在 这 里 ， 
我 们 再 一 次 看 到 数学 工具 的 用 途 。 
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3 延伸 阅读 : 计算 向 量 余弦 的 技巧 


读者 背景 知识 ， 数值 分 析 。 


3.1 大 数据 量 时 的 余弦 计算 


利用 公式 (14.2 ) 计算 两 个 向 量 夹 角 时 ， 计 算 量 为 0(lal + |b|) ， 如 果 候 
定 其 中 一 个 向 量 更 长 ， 不 失 -- 般 性 la| > bl ， 这 样 复杂 度 为 0(jal) 。 如 
果 要 比较 一 篇 新 闻 和 所 有 其 他 N 篇 新 闻 的 相关 性 ， 那 么 计算 复杂 度 为 
O(N .lal) 。 如 果 要 比较 所 有 NN 篇 新 闻 之 间 两 两 的 相关 性 ， 计 算 复杂 度 为 
OCN?. lal) 。 注 意 ， 这 还 只 是 一 次 迭代 。 因 此 ， 这 个 计算 量 是 很 大 的 。 我 
们 假定 词汇 表 的 大 小 为 10 万 ， 那 么 向 量 的 长 度 也 是 这 么 大 ， 假 定 需 要 分 
类 的 新 闻 为 10 万 篇 ,总 的 计算 量 在 105 这 个 数量 级 。 如 果 用 100 台 服 务 器 ， 
每 台 服 务 器 的 计算 能 力 是 每 秒 1 亿 次 ， 那 么 每 次 迭代 的 计算 时 间 在 10 万 
秒 ， 即 大 约 1 天 。 几 十 次 迭代 就 需要 两 三 个 月 ， 这 个 速度 显然 很 慢 。 


这 里 面 可 简化 的 地 方 非常 和 多。 首先 分 母 部 分 (向 量 的 长 度 ) 不 需要 重 
复 计算 ， 计算 向 量 a 和 向 量 b 的 余弦 时 ,它们 的 长 度 可 以 存 起 来 ， 等 
计算 向 量 a 和 向 量 c 的 余弦 时 , 将 a 的 长 度 直接 调 出 来 使 用 即 可 。 这 样 ， 
上 面 的 计算 量 可 以 节省 2/3， 也 就 是 只 有 公式 《14.2 ) 中 分 子 的 部 分 需要 
两 两 计算 。 当 然 这 还 没有 从 根本 上 降低 算法 的 复杂 度 。 


第 二 个 可 以 简化 的 地 方 就 是 在 计算 (14.2 ) 中 的 分 子 ， 即 两 个 向 量 内 积 的 
时 候 ， 只 需 考虑 向 量 中 的 非 零 元 素 即 可 。 那 么 计算 的 复杂 度 取决 于 两 个 
向 量 中 ， 非 零 元 素 个 数 的 最 小 值 。 如 果 一 篇 新 闻 的 一 般 长 度 不 超过 2 000 
词 ， 那 么 非 零 元 素 的 个 数 一 般 也 就 是 1000 词 左 右 ， 这 样 计算 的 复杂 度 大 
约 可 以 下 降 100 信 ,计算 时 间 从 “天 ”这 个 量 级 降 到 十 几 分 钟 这 个 量 级 。 


第 三 个 简化 是 删除 虚词 , 这 里 的 虚词 包括 搜索 中 的 非 必 留 词 , 诸如 “的 ”、 
“是 ”、“ 和 ”, 以 及 一 些 连词 、 副 词 和 介词 , 比如 “因为 ”“ 所 以 ”、“ 非 常 ” 
等 等 。 我 们 在 上 一 节 中 分 析 过 , 只 有 同一 类 新 闻 , 用 词 才 有 很 大 的 重复 性 ， 
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不 同类 的 新 闻 用 词 不 大 相同 。 因 此, 去掉 这 些 虚词 后 , 不 同类 的 新 闻 ， 
即使 它们 的 向 量 中 还 有 不 少 非 零 元 素 ， 但 是 共同 的 非 零 元 素 并 不 多 ， 因 
此 要 做 的 乘法 并 不 多 。 大 多 数 情况 下 ， 都 可 以 跳 过 去 ( 因为 非 零 元 素 乘 
以 零 ， 结 果 还 是 零 ) 。 这 样 ， 计 算 时 间 还 可 以 缩短 几 倍 。 因 此 ，10 万 
篇 新 闻 两 两 比较 一 下 , 计算 时 间 也 就 是 几 分 钟 而 已 。 如 果 做 几 十 次 迭代， 
可 以 在 一 天 内 计算 完 。 


特别 需要 指出 的 是 ， 删 除 虚 词 后 ,不仅 可 以 提高 计算 速度 ， 对 新 闻 分 类 
的 准确 性 也 大 有 好 处 ， 因 为 虚词 的 权重 其 实 是 一 种 干扰 分 类 正常 进行 的 
噪音 。 这 一 点 ， 和 通信 中 过 滤 掉 低频 噪音 是 同样 的 原理 。 通 过 这 件 事 ， 
我 们 也 可 以 看 出 自然 语言 处 理 和 通信 的 很 多 道理 是 相通 的 。 


3.2 ”位置 的 加 权 


和 计算 搜索 相关 性 一 样 ， 出 现在 文本 不 同位 置 的 词 在 分 类 时 的 重要 性 也 
不 相同 。 显 然 ， 出 现在 标题 中 的 词 对 主题 的 贡献 远 比 出 现在 新 闻 正 文中 
的 重要 。 而 即使 在 正文 中 ， 出 现在 文章 开头 和 结尾 的 词 比 出 现在 中 间 的 
词 重 要 。 在 中 学 学 习 语 文 和 大 学 学 习 英 语文 学 时 ， 老 师 都 会 强调 这 一 点 
-一 阅读 时 要 特别 关注 第 一 段 和 最 后 一 段 , 以 及 每 个 段落 的 第 一 个 句子 。 
在 自然 语言 处 理 中 这 个 规律 依然 有 用 。 因 此 ， 要 对 标题 和 重要 位 置 的 词 
进行 额外 的 加 权 ， 以 提高 文本 分 类 的 准确 性 。 


4 小 结 


本 章 介 绍 的 这 种 新 闻 归 类 的 方法 ,准确 性 很 好 ， 适用 于 被 分 类 的 文本 集 
合 在 百 万 这 个 数量 级 。 如 果 大 到 亿 这 个 数量 级 ， 那 么 计算 时 间 还 是 比较 
长 的 。 对 于 更 大 规模 的 文本 处 理 , 我 们 将 在 下 一 章 中 介绍 一 种 更 快速 ， 
但 是 相对 粗粮 一些 的 方法 。 
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第 15 章 和 定 阵 运算 和 文本 处 理 中 的 
两 个 分 类 问题 


我 在 大 学 学 习 线 性 代数 时 , 实在 想 不 出 这 门 课 除 了 告诉 我 们 如 何 解 线性 方 
程 外 ， 还 能 有 什么 别 的 用 途 。 关 于 矩阵 的 许多 概念 ， 出 如 特征 值 等 ， 更 
是 脱离 日 常生 活 。 后 来 在 数值 分 析 中 又 学 了 很 多 矩阵 的 近似 算法 ， 还 是 
看 不 到 可 以 应 用 的 地 方 。 当 时 选 这 些 课 ， 完 全 是 为 了 挣 学 分 得 学 位 ， 

天 大 部 分 大 学 生 恺 怕 也 是 如 此 。 我 想 ， 委 多 同学 都 多 多 少 少 有 过 类似 的 
经 历 。 直 到 后 来 长 期 做 自然 语言 处 理 的 研究 ， 我 才 发 现 数学 家 们 提出 的 
那些 矩阵 的 概念 和 算法 ， 是 有 实际 应 用 的 意义 的 。 


1 文本 和 词汇 的 年 阵 


在 自然 语言 处 理 中 ,最 常见 的 两 个 分 类 问题 分 别 是 ,将 文本 按 主题 归 类 ( 比 
如 将 所 有 介绍 奥运 会 的 新 闻 归 到 体育 类 ) 和 将 词汇 表 中 的 字 词 按 意思 归 
类 ( 比如 将 各 种 运动 的 项 目 名 称 都 好 成 体育 一 类 ) 。 这 两 个 分 类 问题 都 
可 以 通过 矩阵 运算 来 圆满 地 、 一 次 性 地 解决 。 为 了 说 明 如 何 用 和 手 阵 这 个 
工具 来 解决 这 两 个 问题 ， 让 我 们 来 看 一 看 前 一 章 中 介绍 的 余弦 定理 和 新 
闻 分 类 的 本 质 。 


新 闻 分 类 乃至 各 种 分 类 其 实 是 一 个 聚 类 间 题 ， 关 键 是 计算 两 篇 新 闻 的 相 
似 程度 。 为 了 完成 这 个 过 程 , 我 们 要 将 新 闻 变 成 代表 它们 内 容 的 实 词 ， 
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然后 再 变 成 一 组 数 ， 具 体 说 是 向 量 ， 最 后 求 这 两 个 向 量 的 夹 角 。 当 这 两 
个 向 量 夹 第 很 小 时 ， 新 闻 就 相关 ; 当 它 们 垂直 或 者 说 正 交 时 ,新 闻 则 无 
关 。 从 理论 上 讲 ， 这 种 算法 非常 漂亮 。 但 是 因为 要 对 所 有 新 闻 做 两 两 计 
算 ， 而且 要 进行 很 多 次 迭代 ， 因 此 耗 时 特别 长 ， 尤 其 是 当 新 闻 的 数量 很 
大 ， 同 时 词 表 也 很 大 的 时 候 。 我 们 希望 有 一 个 办 法 ， 一 次 就 能 把 所 有 新 
逆 相 关 性 计算 出 来 。 这 个 一 步 到 位 的 办 法 是 利用 矩阵 运算 中 的 奇异 值 分 
解 ( Singular Value Decomposition， 简 称 SVD ) 。 


现在 让 我 们 来 看 看 奇异 值 分 解 是 怎么 回 事 。 首 先 ， 需 要 用 一 个 大 年 阵 4 来 
描述 成 千 上 万 篇 文章 和 几 十 上 百 万 词 的 关联 性 。 在 这 个 和 抢 阵 中 ， 每 一 行 
对 应 一 篇 文章 ， 每 一 列 对 应 一 个 词 ， 如 果 有 N 个 词 ，M 篇 文 草 ， 那么 就 
是 一 个 如 下 所 示 的 Mx NN 的 矩阵。 


Ci1 Pe Qj 本 四 中 Qn 
A=| Qi … A Qin ( 15.1) 
(m1 了 QMmi Pe uN 


其 中 ,第 i 行 、 第 j 列 的 元 素 &jy ， 是 字典 中 第 j 个 词 在 第 i 篇 文章 中 出 
现 的 加 权 词 频 ( 比如 用 词 的 TF-IDF 值 )。 读 者 也 许 能 猜 到 ， 这 个 矩阵 
会 非常 非常 大 ， 比 如 A 履 =1000000, N = 500 000, 100 万 乘 以 50 万 ， 即 
5 000 亿 个 元 素 ， 如 果 以 5 号 字体 打印 出 来 ， 有 两 个 西湖 那么 大 ! 


奇异 值 分 解 ， 就 是 把 上 面 这 样 一 个 大 矩阵 ， 分 解 成 三 个 小 矩阵 相 乘 ， 如 
图 15.1 所 示 。 比 如 把 上 面 例子 的 矩阵 分 解 成 一 个 100 万 乘 以 100 的 答 
阵 X， 一 个 100 乘 以 100 的 抢 阵 B， 和 一 个 100 乘 以 50 万 的 矩阵 Y。 这 
三 个 和 矩阵 的 元 素 总 数 加 起 来 也 不 过 1.5 亿 ， 不 到 原来 的 三 千 分 之 一 。 相 应 
的 存储 量 和 计算 量 都 会 小 三 个 数量 级 以 上 。 
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100x100 100x500000 


1000 000 x*500 0900 1000000x100 


图 15.1 大 和 抢 阵 分 解 成 三 个 小 德 阵 


三 第 一 个 和 矩阵 是 对 词 进行 分 类 的 一 个 
结果 。 它 的 每 一 行 表 示 一 个 词 ， 每 一 列表 示 一 个 语义 相近 的 词类 ， 或 者 
简称 为 语义 类 。 这 一 生 的 久 个 过 元 来 表示 这 个 记 在 每 个 语义 闫 让 的 
要 性 (或 者 说 相关 性 ) ， 数 值 越 大 越 相 关 。 举 一 个 4x2 的 小 矩阵 的 例子 
来 说 明 。 


0.7 0.15 


_ 10.22 0.49 
X= 0 0.92 ( 15.2 ) 


0.3 0.03 


这 里 面 有 四 个 词 ， 两 个 语义 类 ， 第 一 个 词 和 第 一 个 语义 类 比较 相关 ( 相 

关 性 0.7 ) , 和 第 二 个 语义 类 不 太 相 关 ( 相关 性 0.15 ) 。 第 二 个 词 正好 相反 。 

第 三 个 词 只 和 第 二 个 语义 类 相关 ， 和 第 一 个 完全 无 关 。 第 四 个 词 和 每 一 

类 都 不 太 相 关 ， 因 为 它 对 应 的 两 个 元 素 0.3 和 0.03 都 不 大 ， 但 是 相 比 较 
而 言 ， 和 第 一 类 相对 相关 ， 而 第 二 类 基本 无 关 。 


最 后 一 个 和 宅 阵 Y 是 对 文本 的 分 类 绪 果 。 它 的 每 一 列 对 应 一 个 文本 ， 每 一 
行 对 应 一 个 主题 。 这 一 列 中 每 个 元 素 表 示 这 篇 文本 在 不 同 主题 中 的 相关 
性 。 我 们 同样 用 一 个 2 x 4 的 小 矩阵 来 说 明 。 
To7 0.15 0.22 0.39 
:二 | 0 092 0.08 0.53 (15.3) 
这 里 面 有 四 篇 文本 ,两 个 主题 。 第 一 篇 文本 很 明显, 属于 第 一 个 主题 。 
第 二 篇 文本 和 第 二 个 主题 非常 相关 (相似 性 0.92 ) ， 而 和 第 一 个 有 一 点 
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点 关 系 〈0.15 ) 。 第 三 篇 文本 和 两 个 主题 都 不 很 相关 ， 相 比较 而 言 ， 和 第 
一 个 主题 的 关系 稍微 近 一 点 。 第 四 篇 文本 ， 和 两 个 主题 都 有 一 定 的 相关 
性 ， 不 过 和 第 二 个 主题 更 接近 一 些 。 如 果 每 一 列 只 保留 最 大 值 ， 其 余 的 
都 改 为 零 ， 那 么 每 一 篇 文本 都 被 唯一 地 分 到 一 类 主题 中 ， 即 第 一 、 三 篇 
文本 属于 第 一 个 主题 ， 第 二 、 四 篇 属于 第 二 个 主题 。 这 个 结果 和 我 们 在 
上 一 章 利 用 余弦 定理 做 分 类 得 到 的 情况 类 似 一 每 篇 文本 都 被 分 到 了 
一 个 主题 。 


中 间 的 矩阵 则 表示 词 的 类 和 文章 的 类 之 间 的 相关 性 。 我 们 用 下 面 2x 2 的 
和 矩阵 来 说 明 。 


_[0.7 0321 
5= Pek 0.63 | (15.4) 

在 这 个 和 矩阵 8 中 ， 第 一 个 词 的 语义 类 和 第 一 个 主题 相关 ， 和 第 二 个 主题 
没有 太 多 关系 。 而 第 二 个 词 的 语义 类 则 相反 。 


因此 ， 只 要 对 关联 和 矩阵 4 进行 一 次 奇异 值 分 解 ， 就 可 以 同时 完成 近义词 
分 类 和 文章 的 分 类 。 同 时 ， 还 能 得 到 每 个 主题 和 每 个 词 的 语义 类 之 间 的 
相关 性 。 这 个 结果 非常 漂亮 ! 


现在 旗下 的 唯一 问题 ， 就 是 如 何 用 计算 机 进行 奇异 值 分 解 。 这 时 ,线性 
代数 中 的 许多 概念 ， 比 如 和 矩阵 的 特征 值 ， 以 及 数值 分 析 的 各 种 算法 等 等 
就 统统 派 上 用 场 了 。 对 于 不 大 的 矩阵， 比如 几 万 乘 以 几 万 的 矩阵 ， 用 计 
算 机 上 的 数学 工具 MATLAB 就 可 以 进行 了 。 但 是 更 大 的 和 矩阵， 比如 上 
百 万 乘 以 上 百 万 ， 奇 异 值 分 解 的 计算 量 非 常 大 ， 就 需要 很 多 台 计 算 机 并 
行 处 理 了 。 虽 然 Google 早 就 有 了 MapReduce 等 并 行 计算 的 工具 ,但 是 
由 于 奇异 值 分 解 很 难 拆 成 不 相关 子 运算 ， 即 使 在 Google 内 部 以 前 也 无 法 
利用 并 行 计算 的 优势 来 分 解 和 矩阵。 直到 2007 年 ，Google 中 国 〈 谷 歌 ) 
的 张 智 威 博 士 带领 几 个 中 国 的 工程 师 及 实习 生 实 现 了 奇异 值 分 解 的 并 行 
算法 ， 这 是 Google 中 国 对 世界 的 一 个 贡献 。 
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2 延伸 阅 谈 : 奇异 值 分 解 的 方法 和 应 用 场景 
污 者 背景 知识 : 线性 代数 。 


在 这 一 节 里 ， 我 们 大 致 介绍 一 下 奇异 值 分 解 的 算法 。 在 严格 数学 意义 上 
的 奇异 值 分 解 是 这 样 定义 的 ， 和 插 阵 4 可 以 如 下 分 解 成 三 个 矩阵 的 乘积 。 


Amn = Xum X Bun X YNy 《15.5 ) 


其 中 X 是 一 个 西 和 矩阵 ( Unitary Matrix ) ,Y 则 是 一 个 西 矩 阵 的 共 罗 矩阵 。 
西 和 矩阵 的 定义 是 它 和 它 的 共 示 矩阵 转 置 相 乘 等 于 单位 阵 ， 因 此 ， 它 们 都 
是 方形 的 和 矩阵。 而 8 是 一 个 对 角 阵 ， 即 只 有 对 角 线 上 是 非 零 值 。 维 基 百 
科 给 出 了 这 样 一 个 实例 : 





100 0 2 
_10 0 3900 
A=|o% oo000 (15.6) 
0 4 0 0 0 
0 0 1 0 4 0 0 0 0 
xy-|010 0 p=|10 3 0 00 
0 0 0 -1|,， 0 0 v5 0 0 
10 0 0 0 .0 0 0 0 
0 10 0 0 
0 0 10 0 
Y=| V0.2 0 0 0 V0.8 (15.7 ) 
0 001 0 
-V08 0 0 0 V0.2 
很 容易 验证 于 和 Y 都 是 本 矩阵。 


从 这 个 公式 来 看 ， 未 作 近 似 的 奇异 值 分 解 没有 像 上 一 节 中 展示 的 那样 降 
低 甜 阵 的 维度 。 但 是 由 于 对 角 和 扼 阵 中 对 角 线 上 的 元 素 很 多 值 相 对 其 他 的 
非常 小 ， 或 者 干脆 为 零 ， 可 以 省 略 。 因 此 ,奇异 值 分 解 后 ， 一 个 超大 抑 
阵 就 变 成 我 们 上 一 节 中 三 个 小 矩阵 的 乘积 。 
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1 
除了 两 行 对 角 线 元 
袁 非 零 ， 剩 下 的 都 
是 零 。 


奇异 值 分 解 一 般 分 两 步 进行 。 首 先 ， 将 矩阵 4 变换 成 一 个 双 对 角 和 矩阵 ， 
这 个 过 程 的 计算 量 是 0CMN?)， 当 然 这 里 假设 M > N， 和 否则 就 是 0 (NM?)。 
当然 ， 我 们 依然 可 以 利用 矩阵 4 的 稀疏 性 大 大 缩短 计算 时 间 。 第 二 步 是 将 
双 对 角 和 矩阵 变 成 奇异 值 分 解 的 三 个 矩阵 。 这 一 步 计算 量 只 是 第 一 步 的 零头 ， 
可 以 忽略 不 计 。 


在 文本 分 类 中 ，M 对 应 文本 的 数量 ，N 对 应 词典 大 小 。 如 果 比 较 奇 异 值 
分 解 的 计算 复杂 度 和 利用 余 弱 定 理 计算 文本 相似 度 (一 次 迭代 ) 的 时 间 ， 
它们 处 于 同一 个 数量 级 ,但 是 前 者 不 需要 多 次 迭代 ,因此 计算 时 间 短 不 少 。 
奇异 值 分 解 的 另 一 个 大 问题 是 存储 景 较 大 ， 因 为 整个 矩阵 都 需要 存在 内 
存 里 ， 而 利用 余弦 定理 的 聚 类 则 不 需要 。 


3 小 结 


相 比 上 一 章 介 绍 的 利用 文本 特征 向 量 余 弦 的 距离 自 底 癌 上 的 分 类 方法 ， 
奇异 值 分 解 的 优点 是 能 较 快 地 得 到 结果 ( 在 实际 应 用 中 ) ， 因 为 它 不 需要 
一 次 次 地 迭代 。 但 是 用 这 种 方法 得 到 的 分 类 结果 略 显 粗糙 ， 因 此 ， 它 适合 
处 理 超 大 规模 文本 的 粗 分 类 。 在 实际 工作 中 ， 可 以 先进 行 奇 异 值 分 解 , 得 
到 粗 分 类 结果 ， 再 利用 计算 向 量 余弦 的 方法 ， 在 粗 分 类 结果 的 基础 上 , 进 
行 几 次 迁 代 ， 得 到 比较 精确 的 结果 。 这 样 ， 将 这 两 个 方法 先后 使 用 ， 可 
以 充分 利用 这 两 个 方法 的 优势 ， 既 节省 时 间 ， 又 获得 很 好 的 准确 性 。 
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第 16 合 信息 指纹 及 其 应 用 


1 信息 指纹 


在 前 面 的 章节 中 , 我 们 讲 到 , 一 段 文字 所 包含 的 信息 ,就 是 它 的 信息 燃 。 
如 果 对 这 段 信息 进行 无 损 压 缩编 码 ， 理 论 上 编码 后 的 最 短 长 度 就 是 它 的 
信息 粮 。 当 然 ， 实 际 编码 长 度 总 是 要 略 长 于 它 的 信息 箭 的 比特 数 。 但 是 ， 
如 果 仅 仅 要 区 分 两 段 文字 或 者 图 片 ， 则 远 不 需要 那么 长 的 编码 。 任 何 一 
段 信息 (包括 文字 、 语 音 、 视 频 、 图 片 等 等 ) ， 都 可 以 对 应 一 个 不 太 长 
的 随机 数 ， 作 为 区 别 它 和 其 他 信息 的 指纹 (Fingerprint ) 。 只 要 算法 设 
计 得 好 ， 任 何 两 段 信息 的 指纹 都 很 难 重 复 ， 就 如 同人 类 的 指纹 一 样 。 信 
息 指 纹 在 加 密 、 信 息 压 缩 和 处 理 中 有 着 广泛 的 应 用 。 


我 们 在 “图 论 和 网 络 息 虫 ” 一 章 中 提 到 , 为 了 防止 重复 下 载 同 一 个 网 页 ， 
需要 在 蛤 希 表 中 记录 已 经 访问 过 的 网 址 (URL ) 。 但 是 在 哈 希 表 中 以 字 
符 串 的 形式 直接 存储 网 址 ， 既 费 内 存 空间 ， 又 浪费 查找 时 间 。 现 在 的 网 
址 一 般 都 较 长 ， 比 如 ， 如 果 在 Google、 搜 搜 或 者 百度 上 查找 “吴军 数 
学 之 美 ”， 对 应 的 网 址 长 度 在 100 个 字符 以 上 。 下 面 是 百度 的 链接 : 


http://www.baidu.comys?ie=Eb2312&bs=%CA%FD%D1I%A7%D6%AE%C3%CD&sr=&a 
InP;Z= 芭 cl=3&f=8&wd=%CE%E29%BE%EC+%CA%ED%D1%A7%D6%AE%C3%LCO&ct=f0 
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到 了 2010 年 ， 互 联网 上 的 网 页 总 数 在 5 000 亿 这 个 量 级 ， 假 定 网 址 的 平 
均 长 度 为 100 个 字符 ， 那 么 存储 5 000 亿 个 网 址 本 身 至 少 需 要 50TB， 即 
5 000 万 兆 字 市 的 容量 。 考 虑 到 哈 希 表 的 存储 效率 一 般 只 有 50% 左右 ， 故 
实际 需要 的 内 存在 100TB 以 上 。 如 果 一 台 服 务 器 内 存 是 50GB (2010 年 
的 水 平 ) ， 也 需要 2 000 台 服 务 器 来 存放 这 些 内 容 。 另 外 ， 即 使 有 这 么 多 
服务 右 ， 将 这 些 网 址 放 到 了 计算 机 的 内 存 中 ， 由 于 网 址 长 度 不 固定 ， 以 
字符 串 的 形式 查找 。 效 率 会 很 低 。 


因此 ， 如 果 能 够 找到 一 个 天 数 ， 将 这 5 000 亿 个 网 址 随机 地 映射 到 128 位 
二 进 制 ( 即 128 比特 ) ， 也 就 是 16 个 字 节 的 整数 空间 ， 比 如 将 上 面 那个 
很 长 的 字符 串 对 应 成 一 个 如 下 的 随机 数 : 


893249432984398432980545454543 


这 样 ， 每 个 网 址 就 只 需要 占用 16 个 字 节 而 不 是 原来 的 100 个 。 这 就 能 把 
存储 网 址 的 内 存 需 求 量 降 至 原来 的 1/6 不 到 。 这 个 16 个 字 节 的 随机 数 ， 
就 称 做 该 网 址 的 信息 指纹 。 可 以 证 明 ， 只 要 产生 随机 数 的 算法 足够 好 ， 就 
能 保证 几乎 不 可 能 有 两 个 字符 串 的 指纹 相同 ， 就 如 同 不 可 能 有 两 个 人 的 指 
纹 相 同一 样 。 由 于 指纹 是 固定 的 128 位 二 进 制 整数 ， 因 此 ， 查 找 的 计算 量 
与 字符 串 相 比 ， 要 小 得 多 。 网 络 息 虫 在 下 载 网 页 时 ， 它 将 访问 过 芍 网 页 地 
址 都 变 成 一 个 个 信息 指纹 ， 存 到 哈 希 表 中 ， 每 当 遇 到 一 个 新 网 址 ， 计 算 机 
就 计算 出 它 的 指纹 ， 然 后 比较 该 指纹 是 否 已 经 在 哈 希 表 中 ， 来 决定 是 否 下 
载 这 个 网 页 。 这 种 整数 的 查找 比 原来 的 字符 串 查 找 快 几 十 倍 。 对 于 要 求 不 
是 很 高 的 网 络 朴 虫 ， 甚 至 采用 64 位 二 进 制 就 足够 了 ， 这 样 可 以 进一步 节 
省 存储 空间 和 运算 时 间 。 


上 面 那 个 网 址 (字符 串 ) 的 信息 指纹 的 计算 方法 一 般 分 为 两 步 。 痛 
先 ， 将 这 个 字符 串 看 成 是 一 个 特殊 的 、 长 度 很 长 的 整数 。 这 一 步 非常 容 
易 ， 因 为 所 有 的 字符 在 计算 机 里 都 是 按照 整数 来 存储 的 。 接 下 来 就 需要 
一 个 产生 信息 指纹 的 关键 算法 : 伪 随 机 数 产 生 器 算法 ( Pseudo-Random 
Number Generator ， 简 称 PRNG ) ， 通 过 它 将 任意 很 长 的 整数 转换 成 特 
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定 长 度 的 伪 随 机 数 。 最 早 的 PRNG 算法 是 由 计算 机 之 父 汉 : 诺 伊 曼 提 
出 来 的 。 他 的 办 法 非常 简单 ， 就 是 将 一 个 数 的 平方 拘 头 去 尾 ， 取 中 间 的 
几 位 数 。 比 如 一 个 四 位 的 二 进 制 数 1001 ( 相当 于 十 进 制 的 9 ) ， 其 平方 
为 01010001《〈 十进制 的 81) ， 拘 头 去 尾 ， 剩 下 中 间 的 4 位 0100。 当 然 
这 种 方法 产生 的 数字 并 不 很 随机 ， 也 就 是 说 ， 两 个 不 同 信息 很 有 可 能 有 
同一 指纹 ， 比 如 0100 ( 十进制 的 4) ， 它 按照 这 个 方法 产生 的 指纹 也 是 
0100。 现 在 常用 的 梅森 旋转 算法 ( Mersenne Twister ) 要 好 得 多 。 


信息 指纹 的 用 途 远 不 止 网 址 的 消 重 ， 它 的 挛 生 兄弟 是 密码 。 信 息 指 纹 的 
一 个 特征 是 其 不 可 逆 性 , 也 就 是 说 , 无 法 根据 信息 指纹 推出 原 有 信息 。 
这 种 性 质 ， 正 是 网 络 加 密 和 传输 所 需要 的 。 比 如 说 ， 一 个 网 站 可 以 根据 用 
户 本 地 客户 端的 cookie 识别 不 同 用 户 ， 这 个 cookie 就 是 一 种 信息 指纹 。 
但 是 网 站 无 法 根据 信息 指纹 了 解 用 户 的 身份 ， 这 样 就 可 以 保护 用 户 的 隐 
私 。 但 是 cookie 本 吴 并 没有 加 密 ， 因 此 通过 分 析 cookie 还 是 能 知道 某 台 
计算 机 访问 了 哪些 网 站 。 为 了 保障 信息 安全 , 一 些 网 站 ( 比如 银行 的 ) 
采用 加 密 的 HTTPS， 用户 访 问 这 些 网 站 留 下 的 cookie 本 身 也 需要 加 密 。 
加 密 的 可 靠 性 ， 取 决 于 是 否 很 难为 地 找到 拥有 同一 指纹 的 信息 ， 比 如 
一 个 黑客 是 否 能 产生 出 某 位 用 户 的 cookie。 从 加 密 的 角度 讲 梅森 旋转 算 
法 还 不 够 好 ， 因 为 它 产生 的 随机 数 还 有 一 定 的 相关 性 ， 破 解 一 个 就 等 于 
破解 了 一 大 批 。 


在 互联 网 上 加 密 要 使 用 基于 加 密 的 伪 随 机 数 产 生 器 〈Cryptographically 
Secure Pseudo-Random Number Generator， 简 称 CSPRNG ) 。 常 用 的 
算法 有 MD5 或 者 SHA-1 等 标准 ， 它 们 可 以 将 不 定 长 的 信息 变 成 定 长 的 
128 位 或 者 160 位 二 进 制 随机 数 。 值 得 一 提 的 是 ，SHA-1 以 前 被 认为 是 
没有 漏洞 的 ， 现 在 已 经 被 中 国 的 王小云 教授 证 明 存 在 漏 酒 。 但 是 大 家 不 
必 有 愁 慌 ， 因 为 这 和 黑客 能 真正 攻破 你 的 注册 信息 还 是 两 回 事 。 
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1 

O(N) 的 时 间 复 杂 度 
是 不 可 能 突破 的 ， 
因为 毕竟 要 扫 摘 一 
轴 所 有 丸 个 元 索 。 


2 ”信息 指纹 的 用 途 


信息 指纹 的 历史 虽然 很 悠久 ， 但 真正 的 广泛 应 用 是 在 有 了 互联 网 以 后 ， 
近 十 年 才 渐 渐 热 门 起 来 。 


上 面 一 节 讲 述 了 在 网 络 爬 虫 中 利用 信息 指纹 可 以 快速 而 经 济 (节省 服务 
个 ) 地 判断 一 个 网 页 是 否 已 下 载 过 。 信 息 指 纹 在 互联 网 和 自然 语言 处 理 
中 还 有 非常 多 的 应 用 ， 这 里 不 可 能 (也 不 必要 ) 一 一 列举 ， 只 是 找 几 个 
有 代表 性 的 例子 。 


2.1 ”判定 集合 相同 


在 网 页 搜索 中 ， 有 时 需要 判断 两 个 查询 用 词 是 否 完 全 相同 (但 是 次 序 可 
能 不 同 ) ， 比 如 “北京 ”中 关 村 星巴克 ”和 “星巴克 北京 ”中 关 村 ” 
用 词 完 全 相同 。 更 普遍 的 讲法 是 判断 两 个 集合 是 否 相 同 ( 比如 一 个 人 是 
否 用 两 个 不 同 的 Email 帐号 对 同一 群 人 群发 垃圾 邮件 ) 。 解 决 这 个 问题 
有 各 种 各 样 的 方法 ， 没 有 绝对 正确 的 和 错误 的 ， 但 是 有 好 的 方法 和 策 的 
方法 。 


最 直接 的 每 办 法 是 对 这 个 集合 中 的 元 率 一 一 做 比较 ， 这 个 方法 计算 的 时 
间 复 杂 度 是 O(N*) ， 其 中 人 是 集合 的 大 小 。 如 果 谁 面试 时 这 人 么 回答 我 ， 
我 肯定 不 会 让 他 通过 。 


稍微 好 一 点 的 办 法 是 将 两 个 集合 的 元 素 分 别 排序 ， 然 后 顺序 比较 ， 这 样 
计算 时 间 的 复杂 度 是 0(NlogN) ， 比 前 面 那 种 方法 好 了 不 少 ， 但 还 不 是 很 
好 。 与 这 个 方法 处 于 同一 个 水 平 的 是 将 第 一 个 集合 放 在 一 张 哈 希 表 中 , 然 
后 把 第 二 个 集合 的 元 素 一 一 和 哈 希 表 中 的 元 素 作 对 比 。 这 个 方法 的 时 间 
复杂 度 为 CO(NW) ， 达 到 了 最 佳 '。 但 是 额外 使 用 了 0(N) 的 空间 ， 而 且 代 码 
很 复杂 ， 不 完美 。 


完美 的 方法 是 计算 这 两 个 集合 的 指纹 ， 然 后 直接 进行 比较 。 我 们 定义 一 
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个 集合 5 = {e1,ez,……,en} 的 指纹 FP(S) 二 FP(ei) 十 FP(ez) 十 … 十 FP ， 其 中 
FP(e1)，FP(e2)，...，FP(en) 分 别 为 8S 中 这 些 元 素 对 应 的 指纹 。 由 于 加 法 
的 交换 率 ， 保 证 集合 的 指纹 不 因 元 素 出 现 的 次 序 而 改变 ， 如 果 两 个 集合 
元 素 相 同 ， 那 么 它们 的 指纹 一 定 相 同 。 当 然 ， 不同 元 素 的 指纹 也 相同 的 
概率 非常 非常 小 ， 在 工程 上 完全 可 以 忽略 。 我 们 在 延伸 阅读 里 会 告诉 读 
者 这 个 概率 有 多 小 。 


利用 信息 指纹 的 方法 计算 的 复杂 度 是 0(N) ， 而 且 不 需要 额外 的 空间 ， 因 
此 是 最 佳 方法 。 


类 似 的 应 用 还 有 很 多 ， 如 比较 网 上 的 一 首 歌 是 否 是 盗版 别人 的 ， 只 要 算 
一 算 这 两 个 音频 文件 的 信息 指纹 即 可 。 


2.2 ”判定 集合 基本 相同 


爱 思考 的 读者 可 能 会 挑战 我 : 发 垃 奴 邮件 的 人 哪 有 这 人 么 傻 ， 从 两 个 帐号 
发 出 的 垃圾 邮件 收 信 人 都 相同 ? 如 果 稍 微 变 上 一 两 个 ， 上面 的 方法 不 就 
不 起 作用 了 吗 ? 解决 这 个 问题 需要 我 们 能 够 快速 判断 两 个 集合 是 否 基 本 
相同 ， 其 实 只 要 将 上 面 的 方法 稍 作 政 动 即 可 。 


可 以 分 别 从 两 个 帐号 群发 的 接收 电子 邮件 地 址 清单 (Email Address List ) 
中 按照 同样 的 规则 随机 挑选 几 个 电子 邮件 的 地 址 ， 比 如 尾数 为 24 的 。 如 
果 它 们 的 指纹 相同 , 那么 很 有 可 能 这 两 个 接收 的 电子 邮件 单子 基本 相同 。 
由 于 挑选 的 数量 有 限 ， 通常 是 个 位 数 ， 因 此 也 很 容易 判断 是 否 是 80%, 或 
者 90% 重复 。 


上 述 判断 集合 基本 相同 的 算法 有 很 多 实际 的 应 用 ， 比 如 在 网 页 搜索 中 , 判 
断 两 个 网 页 是 否 是 重复 的 。 如 果 把 两 个 网 页 ( 的 正文 ) 从 头 比 到 尾 ， 计 
算 时 间 太 长 ， 也 没有 必要 。 我 们 只 需 对 每 个 网 页 挑 出 有 几 个 词 ， 这些 词 构 
成 网 页 的 特征 词 集 合 。 然 后 计算 和 比较 这 些 特征 集合 的 信息 指纹 即 可 。 在 
两 个 被 比较 的 网 页 中 ， 常 见 的 词 一 般 都 会 出 现 ， 不 能 作为 这 两 篇 文章 的 
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特征 。 只 出 现 一 次 的 词 ， 很 可 能 是 噪音 ， 也 不 能 考虑 。 在 剩 下 的 词 中 ， 
我 们 知道 IDF 大 的 词 鉴别 能 力 强 ， 因 此 只 需 找 出 每 个 网 页 中 IDEF 最 大 的 
几 个 词 ， 并 且 算 出 它们 的 信息 指纹 即 可 。 如 果 两 个 网 页 这 么 计算 出 来 的 
信息 指纹 相同 , 它们 基本 上 是 相同 的 网 页 。 为 了 允许 有 一 定 的 容错 能 力 ， 
在 Google 里 采用 了 一 种 特定 的 信息 指纹 ~ 一 相似 哈 希 (Simhash ) 。 相 
似 哈 希 的 原理 会 在 延伸 阅读 中 介绍 。 


圭 面 的 算法 稍 作 改进 还 可 以 判断 一 篇 文章 是 否 抄袭 男 一 篇 文章 。 具 体 的 
做 法 是 ， 将 每 一 篇 文章 切 成 小 的 片段 ， 然 后 对 这 些 片段 用 上 述 方法 选择 
特征 词 的 集合 ， 并 且 计 算 它们 的 指纹 。 只 要 比较 这 些 指 纹 ， 就 能 找 出 大 
段 相同 的 文字 ， 最 后 根据 时 间 先 后 ,找到 原创 的 和 抄袭 的 。Google 实验 
室 利用 这 个 原理 做 了 一 个 名 为 CopyCat 的 项 目 ， 能 够 很 准确 地 找 出 原文 
和 转载 ( 找 贝 ) 的 文章 。 


2.3 YouTube 的 及 盗版 


Google 旗 下 的 YouTube 是 全 球 最 大 的 视频 网 站 , 和 国内 的 视频 网 站 不 同 ， 
YouTube 自身 不 提供 和 上 传 任何 内 容 ， 完 全 由 用 户 自己 提供 。 这 里 的 用 
户 既 包括 专业 的 媒体 公司 ， 比 如 NBC 和 迪士尼 ， 也 包括 个 人 用 户 。 由 于 
对 后 者 没有 太 多 上 传 视频 的 限制 , 一 些 人 会 上 传 专业 媒体 公司 的 内 容 。 这 
件 事 不 解决 就 会 动摇 YouTube 的 生存 基础 。 


从 上 百 万 视频 中 找 出 一 个 视频 是 否 是 男 一 个 视频 的 盗版 ,并 不 是 一 件 容 
易 的 事情 。 一 段 几 分 钟 的 视频 ， 文 件 大 小 有 几 兆 到 几 十 兆 ， 而 且 还 是 压 
缩 的 ， 如 果 恢 复 到 每 秒 30 帧 的 图 像 ， 数 据 量 就 会 大 得 不 得 了 。 因 此 ， 设 
有 人 通过 直接 比较 两 段 视频 的 方法 来 确定 它们 是 否 相 似 。 


视频 的 匹配 有 两 个 核心 技术 , 关键 帧 的 提取 和 特征 的 提取 。MPEG 视频 ( 在 
NTSC 制 的 显示 器 上 播放 ) 虽然 每 秒 钟 有 30 帧 图 像 ， 但 是 每 一 帧 之 间 的 
差异 不 大 -( 否则 我 们 看 起 来 就 不 连贯 了 。) 只 有 极 少 数 的 帧 是 完整 的 图 像 ， 
这 些 称 为 关键 帧 。 其 余 幢 存储 的 只 是 和 关键 帧 相 比 的 差异 值 。 关 键 帧 对 
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于 视频 的 重要 性 。 就 如 同 主题 词 对 于 新 闻 的 重要 性 一 样 。 因 此 ， 处 理 视 
频 图 像 首 先是 找到 关键 帧 ， 接 下 来 就 是 要 用 一 组 信息 指纹 来 表示 这 些 关 
键 帧 了 。 


有 了 这 些 信息 指纹 后 ， 接 下 来 查 盗版 的 事情 就 类 似 于 比较 两 个 集合 元 素 
是 否 相 同 了 。Google 收购 YouTube 后 ， 由 Google 研究 院 研 究 图 像 处 理 
的 科学 家 们 开发 出 的 反 盗 版 系统 ， 效 果 非 常 好 。 由 于 可 以 找 出 相同 的 视 
频 的 原创 和 拷贝 ，Google 制定 了 一 个 很 有 意思 的 广告 分 成 策略 : 虽然 所 
有 的 视频 都 可 以 揪 和 人 广告， 但 是 广告 的 收益 全 部 提供 给 原创 的 视频 ， 即 
使 广告 是 插 人 在 拷贝 的 视频 中 。 这 样 一 来 ， 所 有 拷贝 和 上 传 别 人 的 视频 
的 网 站 就 不 可 能 获得 收入 。 没 有 了 经 济 利 益 ,也 就 少 了 很 多 盗版 和 拷贝 。 


3 ”延伸 阅读 : 信息 指纹 的 重复 性 和 相似 哈 希 


读者 背景 知识 : 概率 论 、 组 合 数学 。 


3.1 信息 指纹 重复 的 可 能 性 


信息 指纹 是 通过 伪 随 机 数 产 生 的 。 既 然 是 伪 随 机 数 ， 两 个 不 同 的 信息 就 
有 可 能 产生 同样 的 指纹 。 这 种 可 能 性 从 理论 上 讲 确实 存在 , 但 是 非常 小 。 
至 于 有 多 小 ， 我 们 就 在 这 一 节 中 分 析 。 


假定 一 个 伪 随 机 数 产 生 的 范围 是 0~N 一 1， 共 NN 个 。 如 果 是 128 位 的 二 
进 制 ，N = 2128 ， 这 是 一 个 非常 巨大 的 数字 。 如 果 随 意 挑选 两 个 指纹 ， 屠 
么 它们 重复 的 可 能 性 就 是 1/N ， 不 重复 的 可 能 性 是 一 一- ， 因 为 第 一 个 可 


以 是 任 一 个 ， 第 二 个 只 有 N -1 的 可 选 余地 。 如 果 随 意 挑选 三 个 指纹 ， 要 

保证 不 重复 ,第 三 个 只 有 NN -2 的 可 选 余地 ， 因 此 ， 三 个 不 重复 的 概率 为 
一 工 一 之 

衬 一 六 二 。 以 此 类 推 ， 个 指纹 不 重复 的 概率 
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Pu 随 着 k 增 加 而 减 小 ， 即 产生 的 指纹 多 到 一 定 程 度 , 就 可 能 有 重复 的 了 。 
如 果 Px < 0.5 ， 那 么 , K 个 指纹 重复 一 次 的 数学 期 望 超过 1。 现在 来 估计 
一 下 这 时 候 大 的 最 大 值 。 


上 述 不 等 式 等 价 于 
(N — DN— 2)...(N— KR) 
Pis1 = <0S (16.1 ) 
当 N 一 ~， 
1 2 _k k(k+1) 
Piii€ ne ?ve hom (一 (16.2 ) 
这 个 概率 需要 小 于 0.5， 因 此 
k(k+1) 
Pis1 TY exp (- Tt <0.5 ( 16.3) 
这 等 效 于 
k2 + 大 十 2Nln0.5 > 0.5 ( 16.4) 
一 1 十 VET+8Niog2 
> 一 了 二 (16.5) 


也 就 是 说 ， 对 于 一 个 很 大 的 N，k 是 一 个 很 大 的 数字 。 如 果 用 MD5 指纹 
(虽然 它 有 缺陷 ) ， 它 有 128 位 二 进 制 ， > 264 = 1.8 x 101 3。 也 就 是 说 ， 每 
一 千 八 百 亿 亿 次 才能 重复 一 次 ， 因 此 ， 不同 信 息 产 生 相 同 指 纹 的 可 能 性 
几乎 为 零 。 即 使 采用 64 位 的 指纹 ， 重 复 的 可 能 性 依然 很 低 。 


3.2 ”相似 哈 希 (Simhash ) 


相似 哈 希 是 一 种 特殊 的 信息 指纹 ， 是 Moses Charikar 在 2002 年 提出 来 
的 : 但 是 真正 得 到 重视 是 当 Google 在 网 页 忠 虫 中 使 用 它 ， 并 且 把 结果 发 
表 在 WWW 会 议 上 以 后 ?。 虽 然 Charikar 的 论文 写 得 比较 星 深 ， 但 是 相 
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似 蛤 希 的 原理 其 实 并 不 复 淋 。 不 妨 用 一 个 Google 在 下 载 网 页 时 排查 重复 
网 页 的 例子 来 说 明 。 


假定 一 个 网 页 中 有 阁 干 的 词 &,tz,…,tw， 它 们 的 权重 (比如 TF-IDF 值 ) 分 
布 为 wiwz,.…,wx。 先 计算 出 这 些 词 的 信息 指纹 ， 为 便于 说 明 ， 假定 只 用 
8 位 二 进 制 的 信息 指纹 。 当 然 在 实际 工作 中 不 能 用 这 么 短 的 ， 因 为 重复 度 
太 高 。 计 算 相 似 哈 希 分 为 两 步 。 


第 一 步 我 称 之 为 扩展 ， 就 是 将 8 位 二 进 制 的 指纹 扩展 成 8 个 实数 ， 用 
T7072,.…,78 表示 ， 这 些 实 数 的 值 如 下 确定 ; 


首先 ， 将 它们 的 初 值 设 置 为 0 然后， 看 的 指纹 (8 位 )， 如 果 t 的 第 
i 位 为 1， 在 rr 上 加 上 wi; 如 果 为 0， 在 ni 上 减 去 wi。 例 如 ， 的 指纹 为 
10100110 ( 随便 给 的 ) ， 这 样 处 理 完 tt 后 ,ni 到 7 的 值 如 下 : 


表 16.1 处 理 了 第 一 个 词 后 ,， 71 到 78 的 值 


nn 三 1 Wi 
三 1 Wi 
n=0 —W 
rs 二 0 Wi 
rs=1 Wi 
1y 二 1 Wi 
rs=0 —W 


接 下 来 处 理 第 二 个 词 成 ， 加 入 它 的 指纹 是 00011001， 那 么 根据 上 面 逢 1 
相 加 、 轿 0 相 减 的 原则 ， 因 为 第 1 位 是 0， 因 此 7 上 应 该 减 去 tt 的 权重 
wz ， 这 样 才 三 Wi 一 Wa ， 如 此 72,.…rs 做 同样 处 理 ， 结果 如 表 16.2。 


未 16.2 处 理 了 第 一 、 二 个 词 后 , 71 到 ?7g 的 值 
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续 表 
ra Wi — W» 
Ts 一 Wi — W>» 
rs 一 Wi 一 W>» 
rs Wi 一 W221 
ry Wi — W> 
re —Wi 二 Ww 


当 扫 描 完 全 部 词 时 ， 就 得 到 了 最 后 的 8 个 数 71,..…,7r8 ， 第 一 步 扩 展 过程 到 
此 结束 。 假 定 7i,72,…,7e 的 值 在 扩展 后 变 为 如 表 16.3 所 示 的 那样 : 


表 16.3 处理 完 所 有 的 词 后 ,7 到 六 的 值 ， 然 后 把 正 数 变 成 1， 负 数 变 成 0 


| -.052 0 
.. TT ee - ee 
73 0.33 1 
7 0.21 1 
75 -0.91 0 
Ts -1.1 0 
ry -0.85 0 
78 0.52 1 


第 二 步 我 称 之 为 收缩 ， 就 是 把 8 个 实数 变 回 成 一 个 8 位 的 二 进 制 。 这 个 
过 程 非常 简单 ， 如 果 7i > 0， 就 把 相应 的 二 进 制 的 第 i 位 设置 成 1， 否则 
设置 成 0。 这 样 就 得 到 了 这 篇 文章 的 8 位 相似 哈 希 指纹 。 对 于 上 面 的 例子 ， 
这 篇 文章 的 Simhash = 00110001。 


相似 哈 希 的 特点 是 ， 如 果 两 个 网 页 的 相似 哈 希 相差 越 小 ， 这 两 个 网 页 的 
相似 性 越 高 。 如 果 两 个 网 页 相同 ， 它 们 的 相似 哈 希 肯定 相同 。 如 果 它 们 
只 有 少数 权重 小 的 词 不 同 ， 其 余 的 都 相同 ， 几 乎 可 以 肯定 它们 的 相似 哈 
希 也 会 相同 。 值 得 一 提 的 是 ， 如 果 两 个 网 页 的 相似 哈 希 不 同 ,， 但 是 相差 
很 小 ， 则 对 应 的 网 页 也 非常 相似 。 用 64 位 的 相似 哈 希 做 对 比 时 ， 如 果 只 
相差 一 两 位 ， 那 么 对 应 网 页 内 容重 复 的 可 能 性 大 于 80%。 这 样 通过 记录 
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每 个 网 页 的 相似 哈 希 , 然后 判断 一 个 新 网 页 的 相似 哈 希 是 否 已 经 出 现 过 ， 
可 以 找到 内 容重 复 的 网 页 ， 就 不 必 重 复 建 索引 浪费 计算 机 资源 了 。 


信息 指纹 的 原理 简单 ， 使 用 方便 ， 因 此 用 途 非常 广泛 ， 是 当今 海量 数据 
处 理 必 不 可 人 少 的 工具 。 


4 小结 


信息 指纹 可 以 理解 成 将 一 段 信 息 ( 文字 、 图 片 、 音 频 、 视 频 等 ) 随机 地 
映射 到 一 个 多 维 二 进 制 空 间 中 的 一 个 点 (一 个 二 进 制 数字 ) 。 只 要 这 个 
随机 函数 做 得 好 ， 那 么 不 同 信息 对 应 的 这 些 点 不 会 重合 ， 因 此 这 些 二 进 
制 的 数字 就 成 了 原来 信息 所 具有 的 独一无二 的 指纹 。 


参考 文献 : 


1. Moses Charikar ,Similarity Estimation Techniques from Rounding Algorithms, 
Proceedings of the 34th Annual ACM Symposium on Theory of Computing, 2002. 
2. Gurmeet Singh Manku, Arvind Jain and Anish Das Sarma, Detecting Near-Duplicates 


for Web Crawling, WWW2007, 2007. 
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第 17 对 由 电视 出 《暗算 ? 所 想到 的 
一 谈 谈 密码 学 的 数学 原理 


2007 年 ， 我 看 了 电视 剧 《 暗 算 》， 很 喜欢 它 的 构思 和 里 面 的 表演 。 其 中 
有 一 个 故事 提 到 了 密码 学 ， 故 事 本 身 不 错 ， 但 是 有 点 故弄玄虚 。 不 过 有 
一 点 是 对 的 ， 就 是 当今 的 密码 学 是 以 数学 为 基础 的 。( 没有 看 过 《暗算 》 
的 读者 可 以 看 一 下 网 上 的 介绍 ， 因 为 后 面 会 多 次 提 到 这 部 电视 剧 。) 


1 密码 学 的 自发 时 代 


密码 学 的 历史 大 致 可 以 追溯 到 两 和 于 年 前 ， 相 传 古 罗 马 名 将 恺 撒 (Julius 
Caesar ) 为 了 防止 敌 方 截获 情报 ， 用 密码 传送 情报 。 恺 撒 的 做 法 很 简单 ， 
就 是 对 二 十 几 个 罗马 字母 建立 一 张 对 应 表 ， 如 表 17.1 所 示 。 


表 17.1 恺 撤 大 帝 的 明码 密码 对 应 表 
明码 密码 
A 





中 吕 交 芝 
;Rm 


on 网 | 
"yo 
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这 样 ， 如 果 不 知 道 密 码 本 ， 即 使 截获 一 段 信 息 也 看 不 懂 ， 比 如 收 到 一 个 
的 消息 是 ABKTBP， 那 么 在 敌人 看 来 是 毫 无 意义 的 字 ， 通 过 密码 本 破解 
出 来 就 是 CAESAR 一 词 ， 即 恺 撒 的 名 字 。 这 种 编码 方法 史 称 恺 撤 大 帝 ， 
现在 市 场 上 还 有 这 一 类 的 玩具 卖 ， 见 图 17.1。 





图 17.1 市 场 上 卖 的 名 为 “ 恺 撒 大 帝 ”的 玩具 


当然 ， 学 过 信息 论 的 人 都 知道 ， 只 要 多 截获 一 些 情报 ( 即使 是 加 密 的 ) ， 
统计 一 下 字母 的 频率 ， 就 可 以 破解 出 这 种 密码 。 柯 南 * 道 尔 (Sir Arthur 
Ignatius Conan Doyle ) 在 他 的 《福尔摩斯 探 案 集 》 中 “跳舞 的 小 人 ”的 
故事 里 已 经 介绍 了 这 种 小 技巧 ( 见 图 17.2 ) 。 近 年 来 在 很 多 谍报 题材 的 
电视 剧 中 ,编剧 还 在 经 常 使 用 这 种 鳖 脚 的 密码 ， 比 如 用 菜 价 (一 组 数字 ) 
传递 信息 ， 这 些 数 字 对 应 康 店 字典 的 页 码 和 字 的 次 序 。 对 于 学 过 信息 论 
的 人 来 说 ， 破 译 这 种 密码 根本 不 需要 密码 本 ， 只 要 多 收集 几 次 情报 就 可 
以 破译 出 来 。 


大头 于 火炎 类 开 人 火 民 短 尖 天 于 过 





图 17.2 ”跳舞 的 小 人 : 看 上 去 很 神秘 ， 但 是 很 容易 被 破解 


从 恺 撒 大 帝 到 20 世纪 初 很 长 的 时 间 里 ， 密 码 的 设计 者 们 在 非常 缓慢 地 改 
进 技术 ， 因 为 他 们 的 工作 基本 上 靠 经 验 ， 没 有 自觉 地 应 用 数学 原理 ( 当 
然 当 时 还 没有 信息 论 ) 。 人 们 渐渐 意识 到 一 个 好 的 编码 方法 会 使 得 解密 
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者 无 法 从 密码 中 统计 出 明码 的 统计 信息 。 有 经 验 的 编码 者 会 把 常用 的 词 
对 应 成 多 个 密码 ， 使 得 破译 者 很 难 统 计 出 任何 规律 。 比 如 ， 如 果 将 汉语 
中 的 “是 ”一 词 对 应 于 唯一 一 个 编码 0543， 那 么 破译 者 就 会 发 现 0543 出 
现 的 特别 多 。 但 如 果 将 它 对 应 成 0543 、373 、2947 等 等 10 个 密码 ， 每 次 
随机 地 选用 一 个 ， 每 个 密码 出 现 的 次 数 就 不 会 太 多 ， 而 且 破 译 者 也 无 从 
知道 这 些 密码 其 实 对 应 一 个 字 。 这 里 面 已 经 包含 着 朴素 的 概率 论 的 原理 。 


图 17.3 ”加 密 和 解密 是 一 对 函数 和 反 函 数 


好 的 密码 必须 做 到 不 能 根据 已 知 的 明文 和 密 文 的 对 应 推断 出 新 的 密 文 的 
内 容 。 从 数学 的 角度 上 讲 ， 加 密 的 过 程 可 以 看 作 是 一 个 申 数 的 运算 F， 
解密 的 过 程 是 反 函 数 的 运算 。 明 码 是 自 变量 , 密码 是 函数 值 。 好 的 《加 密 ) 
函数 不 应 该 通过 玫 个 自 变 量 和 函数 值 就 能 推出 函数 。 这 一 点 在 第 二 次 世 
界 大 战 前 做 得 很 不 好 。 历 史上 有 很 多 在 这 方面 设计 得 不 周到 的 密码 的 例 
子 。 比 如 在 第 二 次 世界 大 战 中 ， 日 本 军 方 的 密码 设计 就 很 成 问题 。 美 
军 破获 了 日 本 很 多 密码 。 在 中 途 岛 海战 前 ， 美 军 截 获 的 日 军 密 电 经 常 出 
现 AF 这 样 一 个 地 名 ， 应 该 是 太平 洋 的 某 个 岛屿 ,但 是 美军 无 从 知道 是 哪 
个 。 于 是 , 美军 就 逐个 发 布 自己 控制 的 岛屿 有 关 的 假 新 闻 。 当 美军 发 出 “中 
途 岛 供水 系统 坏 了 ”这 条 假 新 闻 后 ， 从 截获 的 日 军情 报 中 又 看 到 含有 AF 
的 电文 (日军 情报 内 容 是 AF 供水 出 了 问题 ) ， 美 军 就 断定 中 途 岛 就 是 
AF。 事 实证 明 判 断 正 确 ， 美 军 在 那里 成 功 地 伏击 了 日 本 联合 舰队 。 


已 故 的 美国 情报 专家 雅 德 利 ( Herbert Osborne Yardley, 1889-1958 ) 二 
战 时 曾经 在 重庆 帮助 中 国政 府 破 解 日 本 的 密码 。 他 在 重庆 的 两 年 里 做 得 
最 成 功 的 一 件 事 ， 就 是 破解 了 日 军 和 重庆 间谍 的 通信 密码， 并 因此 破译 
也 千 份 日 军 和 间谍 之 间 通 信 的 电文 , 从 而 破获 了 国民 党 内 奸 “ 独 壁 海盗 ” 
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1 

美国 破译 了 日 本 的 
密码 ， 掌 握 了 山本 
五 十 六 飞机 的 行踪 ， 
然后 派 战斗 机 击落 
了 他 的 座机 。 


为 日 军 提供 重庆 气象 信息 的 间谍 案 。 雅 德 利 ( 及 一 位 中 国 女子 徐 贞 ) 的 
工作 ， 大 大 减轻 了 日 军 对 重庆 又 炸 造 成 的 伤害 。 雅 德 利 回 到 美国 后 写 了 
本 书 《中 国 黑 室 》( The Chinese Black Chamber) 介绍 这 段 经 历 ， 但 是 
该 书 直 到 1983 年 才 被 获准 解密 并 出 版 。 从 书 中 的 内 容 可 以 了 解 到 ， 当 时 
日 本 在 密码 设计 上 有 严重 的 缺陷 。 日 军 和 重庆 间谍 约定 的 密码 本 就 是 美 
国 著 名 作家 赛 珍珠 ( Pearl S. Buck ) 获得 1938 年 诺 贝 尔 文学 奖 的 《大 地 》 
( The Good Earth ) 一 书 。 这 本 书 很 容易 找到 ， 解 密 时 只 要 接 密 码 电报 
的 人 拿 着 这 本 书 就 能 解 开 密码 。 密 码 所 在 的 页 数 就 是 一 个 非常 简单 的 公 
式 : 发 报 日 期 的 月 数 加 上 天 数 ， 再 加 上 10。 比 如 3 月 11 日 发 报 ， 密 码 就 
在 3+ 11+10= 24 页 。 这 样 的 密码 设计 违背 了 我 们 前 面 介绍 的 “加 密 水 
数 不 应 该 通过 几 个 目 变 量 和 函数 值 就 能 推出 函数 本 身 ” 这 个 原则 ， 这 样 
的 密码 ， 破 译 一 篇 密 文 就 可 能 破译 以 后 全 部 的 密 文 。 


该 书 中 还 提 到 日 军 对 保密 的 技术 原理 所 知 其 少 。 有 一 次 日 本 的 马尼拉 使 
馆 向 外 发 报时 ， 发 到 一 半 机 器 卡 死 ， 然 后 居然 就 照 单 重 发 一 遍 了 事 ， 这 
种 同文 密 电 在 密码 学 上 是 大 鼠 ( 和 我 们 现在 VPN 登录 用 的 安全 密 钥 一 样 ， 
密码 机 加 密 时 ， 每 次 应 该 自动 转 一 轮 ， 以 防 同一 密 钥 重复 使 用 ， 因 此 即 
使 是 同一 电文 ， 两 次 发 送 的 密 文 也 应 该 是 不 一 样 的 ) 。 另 外 ， 日 本 外 交 
部 在 更 换 新 一 代 密 码 机 时 ， 有 些 距 离 远 的 国家 的 使 馆 因 为 新 机 器 到 位 较 
晚 ， 他 们 居然 还 使 用 老 机 器 发 送 。 这 样 就 出 现 新 老 机 器 混用 的 情况 ， 同 
样 的 内 容 美国 会 收 到 新 老 两 套 密 文 , 由 于 日 本 旧 的 密码 很 多 已 被 破解 ， 这 
样 会 导致 新 的 密码 一 出 台 就 毫 无 机 密 可 言 。 总 的 来 讲 ， 日 本 在 第 二 次 世 
界 大 战 中 情报 经 常 被 美国 人 破译 ， 他 们 的 海军 名 将 山本 五 十 六 ( 他 爸爸 
56 岁 时 生 的 他 ,所 以 起 名 五 十 六 ) 也 因此 丧命 '。 我 们 常 讲 落后 是 要 挨打 的 ， 
其 实 不 会 使 用 数学 也 是 要 挨打 的 。 


2 信息 论 时 代 的 密码 学 


在 第 二 次 世界 大 成 中 ， 很 多 顶尖 的 科学 家 包括 提出 信息 论 的 香农 都 在 为 
美军 情报 部 门 工作 ， 而 信息 论 实际 上 就 是 情报 学 的 直接 产物 。 香 农 提出 
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信息 论 后 ,为 密码 学 的 发 展 带 来 了 新 气象 。 根 据 信息 论 ， 密 码 的 最 高 境 
界 是 政 人 在 截获 密码 后 ， 对 我 方 的 所 知 没有 任何 增加 ， 用 信息 论 的 专业 
术语 讲 ， 就 是 信息 量 没有 增加 。 一 般 来 讲 ， 当 密码 之 间 分 布 均匀 并 且 统 
计 独 立时 ， 提 供 的 信息 最 少 。 均 匀 分 布 使 得 敌人 无 从 统计 ， 而 统计 独立 
能 保证 敌人 即使 看 到 一 段 密码 和 明码 后 ,不 能 破译 另 一 段 密码 。 这 也 是 《 暗 
算 》 里 传统 的 破译 员 老 陈 破 详 了 一 份 密 报 , 但 无 法 推广 的 原因 ， 而 数学 
家 黄 依依 预见 到 了 这 个 结果 ， 因 为 她 知道 敌人 新 的 密码 系统 编 出 的 密 文 
是 统计 独立 的 。 


有 了 信息 论 后 , 密码 的 设计 就 有 了 理论 基础 , 现在 通用 的 公开 密 钥 的 方法 ， 
《暗算 》 里 的 “光复 一 号 ”密码 ， 应 该 就 是 基于 这 个 理论 。 


公开 密 乌 的 原理 其 实 很 简单 ， 我 们 以 给 上 面 的 单词 Caesar 加 
解密 来 说 明 它 的 原理 。 先 把 它 变 成 一 组 数 ， 比 如 它 的 ASCII 码 
X = 067097101115097114( 每 三 位 代表 一 个 字母 ) 做 明码 。 现 在 来 设计 
一 个 密码 系统 ， 对 这 个 明码 加 密 。 


1， 找 两 个 很 大 的 素数 ( 质数 ) P 和 0Q, 越 大 越 好 ， 比 如 100 位 长 的 ， 
然后 计算 它们 的 乘积 


N=Px0 ( 17.1) 
M=(P-D)x(Q-1) (17.2 ) 


2， 找 一 个 和 MM 互 素 的 整数 E, 也 就 是 说 M 和 E 除 了 1 以 外 没有 公约 数 。 
3.， 找 一 个 整数 D， 使 得 ExD 除 以 M 余 1, 即 ExDmodM = 1。 


现在 , 世界 上 先进 的 、 最 常用 的 密码 系统 就 设计 好 了 , 其 中 已 是 公 铀 ， 
谁 都 可 以 用 来 加 蜜 ， 了 是 私 钥 用 于 解密 ， 一 定 要 自己 保存 好 。 乘 积 N 是 公 
开 的 ， 即 使 敌人 知道 了 也 没关系 。 


现在 ， 用 下 面 的 公式 对 X 加密 ， 得 到 密码 y。 
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费 尔 马 小 定理 有 两 
种 等 价 的 描述 。 
描述 一 : P 是 一 个 
质数 ， 对 于 任 
何 整 数 wW， 如 果 
N、P 互 索 ， 那 么 
Nr”1 = 1(mod P)。 
描述 二 : Pp 是 一 个 质 
数 ， 对 于 任何 整数 
NPF = N(mod P) 。 


XmodN=Y (17.3 ) 


好 了 ， 现 在 没有 密 锅 Dp， 神仙 也 无 法 从 Y 中 恢复 XX。 如 果 知 道 D， 根 据 费 
尔 马 小 定理 “， 则 只 要 按 下 面 的 公式 就 可 以 轻而易举 地 从 Y 中 得 到 X。 


Y?modN=X (17.4 ) 
这 个 过 程 大 致 可 以 概况 如 下 : 
明文 明文 密 文 明文 明文 
Caesar 06... 3718... O68... Caesar 





图 17.4 公开 密 铀 示意 图 
公开 密 钥 的 好 处 有 : 


1. 简单 ， 就 是 一 些 乘除 而 已 。 


2， 可 靠 。 公开 密 钥 方法 保证 产生 的 密 文 是 统计 独立 而 分 布 均匀 的 。 
也 就 是 说 ,不 论 给 出 多 少 份 明文 和 对 应 的 密 文 ， 也 无 法 根据 已 知 的 
明文 和 密 文 的 对 应 来 破译 下 一 份 密 文 。 更 重要 的 是 N ,EE 可 以 公开 给 
任何 人 加 密 用 ,但 是 只 有 掌握 密 钥 D 的 人 才 可 以 解密 ,即使 加 密 者 自 
己 也 是 无 法 解密 的 。 这 样 ， 即 使 加 密 者 被 抓 住 叛变 了 ， 整套 密码 系 
统 仍 然 是 安全 的 。 (而 已 撤 大 帝 的 加 密 方 法 ， 只 要 有 一 个 知道 密码 
本 的 人 泄密 ， 整 个 密码 系统 就 公开 了 。) 


3 灵活， 可 以 产生 很 多 的 公开 密 钥 FE 和 私 钥 D 的 组 合 给 不 同 的 加 
密 者 。 
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最 后 让 我 们 看 看 破解 这 种 密码 的 难度 。 首 先 ， 要 声明 ， 世 界 上 没有 永远 破 
不 了 的 密码 ， 关 键 是 它 能 有 多 长 时 间 的 有 效 期 。 要 破解 公开 密 铀 的 加 密 
方式 ， 至今 的 研究 结果 表明 最 好 的 办 法 还 是 对 大 数 NN 进行 因数 分 解 ， 即 
通过 N 反 过 来 找到 P 和 QQ， 这样 密码 就 被 破解 了 。 而 找 P 和 Q 目 前 只 有 用 
计算 机 把 所 有 的 数字 试 一 侦 这 种 毓 办 法 。 这 实际 上 是 在 拼 计 算 机 的 速度 ， 
这 也 就 是 为 什么 P 和 Q 都 需要 非常 大 。 一 种 加 密 方 法 只 要 保证 50 年 内 计 
算 机 破 不 了 也 就 可 以 满意 了 。 前 几 年 破解 的 RSA-158 密码 是 这 样 被 因数 
分 解 的 


39505874583265144526419767800614481996020776460304936 
4541393760515793556265294506836097278424682195350935 
44305870490251995655335710209799226484977949442955603 
= 3388495837466721394368393204672181522815830368604993 
048084925840555281177 x 116588234066712599031483765583 
832708181310122581463926004395209941313443341629245361 
39 


现在 ， 让 我 们 回 到 《暗算 》 中 ， 黄 依依 第 一 次 找 的 结果 经 过 一 系列 计算 
发 现 无 法 归 零 , 也 就 是 说 除 不 尽 , 我 猜 她 可 能 试图 将 一 个 大 数 NN 做 分 解 ， 
没 成 功 。 第 二 次 计算 的 结果 是 归 零 了 , 说 明 她 找到 N = P x 8 的 分 解 方 法 。 
当然 ， 这 件 事 全 怕 是 不 能 用 算盘 完成 的 ， 所 以 我 觉得 编导 在 这 点 上 有 点 
夸张 。 另外, 该 电视 剧 还 有 一 个 讲 得 不 清 不 楚 的 地 方 就 是 里 面 提 到 的 “ 光 
复 一 导 ” 密 码 的 误差 问题 。 一 个 密码 是 不 能 有 误差 的 ， 否 则 就 是 有 了 密 
钥 也 无 法 解码 了 。 我 想 可 能 是 指 在 构造 密码 时 ，P 和 Q@ 之 一 没 找 对 ， 其 
中 一 个 〈 其 至 两 个 都 ) 不 小 心 找 成 了 合 数 ， 这 时 密码 的 保密 性 就 差 了 很 
多 。 如 果 谁 知道 电视 剧 里 面 讲 的 “误差 ”是 指 什么 ， 请 告诉 我 一 声 。 青 
有 ， 电视剧 里 提 到 汉 ， 诺 依 曼 ,说 他 是 现代 密码 学 的 祖宗 ， 这 是 完全 和 弄 
错 了 ， 应 该 是 香农 。 冯 * 诺 依 曼 的 贡献 在 发 明 现 代 电 子 计算 机 和 提出 博 
弈 论 (Game Theory ) ， 和 密码 无 关 。 
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不 管 怎 么 样 ， 我 们 今天 用 的 所 谓 最 可 靠 的 加 密 方法 ， 背 后 的 数学 原理 其 
实 就 这 人 么 简单 ， 一 点 也 不 神秘 ， 无 非 是 找 几 个 大 素数 做 一 些 乘 除 和 生 方 
运算 就 可 以 了 。 但 就 是 靠 这 么 简单 的 数学 原理 ， 保 证 了 二 战 后 的 密码 几 
乎 无 法 窒 破 解 。 冷 战 时 期 美 苏 双 方 都 投入 了 前 所 未 有 的 精力 去 获得 对 方 
的 情报 ,但 是 没有 发 生 过 大 的 因为 密码 被 破 而 泄密 的 事件 。 


3 小 结 


我 们 在 介绍 信息 论 中 谈 到 ， 利 用 信息 可 以 消除 一 个 系统 的 不 确定 性 。 而 
利用 已 经 获得 的 信息 情报 来 消除 一 个 情报 系统 的 不 确定 性 就 是 解密 。 因 
此 ， 密 码 学 的 最 高 境界 就 是 无 论 敌 方 获取 多 少 密 文 ， 也 无 法 消除 已 方 情 
报 系统 的 不 确定 性 ,为 了 达到 这 个 目的 ,就 不 仅 要 做 到 密 文 之 间 相 互 无 关 ， 
同时 密 文 还 是 看 似 完 全 随机 的 序列 。 在 信息 论 诞生 后 ， 科 学 家 们 沿 着 这 
个 思路 设计 出 很 好 的 密码 系统 ， 而 公开 密 钥 是 目前 最 常用 的 加 密 办 法 。 


第 18 音 ”闪光 的 不 一 定 是 金子 一 谈 谈 
搜索 引擎 反 作 束 问题 


自从 有 了 搜索 引擎 ， 就 有 了 针对 搜索 引擎 网 页 排名 的 作弊 (SPAM ) 。 结 
果 用 户 发 现在 搜索 引擎 中 排名 靠 前 的 网 页 不 一 定 就 是 高 质量 的 、 相 关 的 网 
页 ， 而 是 商业 昧 儿 非 常 浓 的 作 紧 网 页 。 用 人 句 俗 话说 ， 办 光 的 不 一 定 是 金子 。 


搜索 引擎 的 作弊 ， 虽 然 方法 很 多 ， 目 的 只 有 一 个 ， 就 是 采用 不 正当 手段 提 
高 自己 网 页 的 排名 。 早 期 最 常见 的 作弊 方法 是 重复 关键 词 。 比 如 一 个 卖 数 
码 相 机 的 网 站 , 重复 地 罗列 各 种 数码 相机 的 品牌 , 如 尼康 、 佳 能 和 柯达 等 等 。 
为 了 不 让 读者 看 到 众多 讨厌 的 关键 词 ， 聪 明 一 点 的 作 池 者 常用 很 小 的 字体 
和 与 背景 相同 的 颜色 来 掩盖 这 些 关 键 词 。 其 实 ， 这 种 做 法 很 容易 被 搜索 引 
擎 发 现 并 纠正 。 





图 18.1 给 我 1 万 块 钱 ， 我 保证 你 的 网 站 在 Google 排 在 第 一 页 
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有 了 网 页 排名 (PageRank ) 以 后 ,作弊 者 发 现 一 个 网 页 被 引用 的 链接 越 
多 ， 排 名 就 可 能 越 靠 前 ， 于 是 就 有 了 专门 买卖 链接 的 生意 。 比 如 ， 有 人 
目 己 创建 成 百 上 千 个 网 站 ， 这 些 网 站 上 没有 实质 的 内 容 ， 只 有 到 他 们 的 
客户 网 站 的 链接 。 这 种 做 法 比重 复 关 键 词 要 高 明 得 多 ， 因 为 他 们 自己 隐 
藏 在 背后 ， 而 他 们 那些 客户 的 网 页 本 身 内 容 上 没有 什么 问题 ， 因 此 不 容 
多 被 发 现 。 但 是 ， 这 些 伎 俩 还 是 能 够 被 识破 的 。 因 为 那些 所 谓 帮 别人 提 
高 排名 的 网 站 , 为 了 维持 生意 需要 大 量 地 卖 链接 , 所 以 很 容易 露 马 脚 。( 这 
就 如 网 造假 钞票 ， 当 某 一 种 假 钞 票 的 流通 量 相 当 大 以 后 ， 就 容易 找到 源 
头 。) 再 以 后 ， 又 有 了 形形色色 的 作弊 方式 ， 这 里 就 不 一 一 歼 述 了 。 


2002 年 ， 我 加 入 Google 做 的 第 一 件 事 就 是 消除 网 络 作弊 ， 因 为 那 时 搜 
索引 擎 的 作 次 实在 太 严 重 。 当 时 全 世界 没有 人 做 过 反 作 潍 的 工作 ， 作 次 
者 也 不 会 知道 我 们 要 清除 他 们 。 经 过 我 们 几 个 人 几 个 月 的 努力 ， 一举 清 
除了 一 半 的 作 尊 者 ,并 且 接 下 来 陆 陆 续 续 把 绝 大 多 数 都 清除 了 。( 当然 ， 
以 后 抓 作 刺 的 效率 就 不 会 有 这 么 高 了 。) 作 兹 者 没有 想到 我 们 会 清除 他 们 。 
其 中 一 部 分 网 站 从 此 “ 痛 改 前 非 ”,， 但 还 是 有 很 多 网 站 换 一 种 作 兹 方法 
继续 作弊 。 这 些 是 在 我 们 预料 之 中 的 , 我 们 也 准备 了 后 招 等 着 他 们 。 因此 ， 
抓 作 次 成 了 一 种 长 期 的 “ 猫 扣 老鼠 ”的 游戏 。 虽 然 至 今 还 没有 一 个 一 劳 
永 逸 解决 作弊 问题 的 方法 ， 但 是 ，Google 基本 做 到 了 对 于 任何 已 知 的 作 
弊 方 法 ， 在 一 定时 间 内 发 现 并 清除 ， 从 而 将 作弊 网 站 的 数量 控制 在 一 个 
很 小 的 比例 范围 内 。 


做 事情 的 方法 有 道 和 术 两 种 境界 ， 搜 索 反 作弊 也 是 如 此 。 在 “ 术 ” 这 个 
层面 的 方法 大 多 是 看 到 作弊 的 例子 ， 分 析 它 ， 然 后 清除 它 ， 这 种 方法 能 
解决 问题 ， 而 且 不 需要 太 动 脑筋 ， 但 是 工作 量 较 大 ， 难 以 从 个 别 现象 上 
升 到 普遍 规律 ,很 多 崇尚 “人 工 ” 的 搜索 引擎 公司 刘欢 这 样 的 方法 ,在 “ 道 ” 
这 个 层面 解决 反 作 紫 问题 ， 就 要 透 过 具体 的 作 浆 例子， 找到 作 泓 的 动机 
和 本 质 。 然 后 ， 从 本 质 上 解决 问题 。 


我 们 发 现 ， 通 信 模 型 对 于 搜索 反 作 商 依然 适用 。 在 通信 中 解决 噪音 干扰 
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问题 的 基本 思路 有 两 条 。 


1. 从 信息 源 出 发 ， 加 强 通 信 (编码 ) 自身 的 抗 干扰 能 力 。 
2， 从 传输 来 看 ， 过 滤 掉 噪音 ， 还 原 信 息 。 


搜索 引擎 作 兹 从 本 质 上 看 就 如 同 对 ( 搜索 ) 排序 的 信息 加 入 噪音 ， 因 此 
反 作 浆 的 第 一 条 是 要 增强 排序 算法 的 抗 噪声 能 力 。 其 次 是 像 在 信号 处 理 
中 去 噪音 那样 ， 还 原 原 来 真实 的 排名 。 学 过 信息 论 和 有 信号 处 理 经 验 的 
读者 可 能 知道 这 人 么 一 个 事实 : 如 果 在 发 动机 很 吵 的 汽车 里 用 手机 打 电 话 ， 
对 方 可 能 听 不 清 ; 但 是 如 果 知 道 了 汽车 发 动机 的 频率 ， 可 以 加 上 一 个 和 
发 动机 噪音 频率 相同 , 振幅 相反 的 信号 , 便 很 容易 地 消除 发 动机 的 唆 音 ， 
这 样 ， 接 昕 人 可 以 完全 上 昕 不 到 汽车 的 噪音 。 事 实 上 ， 现 在 一 些 高 端 手机 
已 经 有 了 这 种 检测 和 消除 噪音 的 功能 。 消 除 噪音 的 流程 可 以 概括 如 下 ， 





输入 信号 


18.2 ”通信 中 消除 噪音 的 过 程 


在 图 18.2 中 , 原始 的 信号 泥人 了 噪音 , 在 数学 上 相当 于 给 两 个 信号 做 卷 积 。 
噪音 消除 的 过 程 是 一 个 解 卷 积 的 过 程 。 这 在 信号 处 理 中 并 不 是 什么 难题 。 
因为 第 一 , 汽车 发 动机 的 频率 是 固定 的 , 第 二 , 这 个 频率 的 噪音 重复 出 现 ， 
只 要 采集 几 秒 钟 的 信号 进行 处 理 就 能 做 到 。 从 广义 上 讲 ， 只 要 噪音 不 是 
完全 随机 并 且 前 后 有 相关 性 ， 就 可 以 检测 到 并 且 消 除 。 (事实 上 ， 完 全 
随机 不 相关 的 高 斯 白 噪音 是 很 难 消除 的 。 ) 


搜索 引擎 的 作弊 者 所 做 的 事 ， 就 如 同 在 手机 信和 号 中 加 入 了 噪音 ， 使 得 搜 
索 结 果 的 排名 完全 乱 了 。 但 是 ， 这 种 人 为 加 入 的 噪音 并 不 难 消 除 ， 因 为 
作弊 者 的 方法 不 可 能 是 随机 的 〈 否则 就 无 法 提高 排名 了 ) 。 而 且 ， 作 网 
者 也 不 可 能 是 一 天 换 一 种 方法 ， 即 作弊 方法 是 时 间 相 关 的 。 因 此 ， 搞 搜 
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很 多 作答 的 网 页 
落地 页 (Landing 
Page ) 内 容 质 量 非 
常 高 ， 但 是 里 面 暗 
藏 一 个 JavaScript 
跳 转 到 另外 一 个 商 
业 网 站 。 因此 ， 用 
户 进入 这 个 网 页 后 ， 
落地 的 网 页 只 是 一 
闪 而 过 ， 就 进入 到 
作 狼 的 网 页 。 搜 索 
引 攀 肥 虫 下 载 这 个 
网 页 后 ， 会 按照 它 
高 质量 的 内 容 建 索 
引 。 用 户 查找 信息 
时 ， 这 些 落地 页 因 
为 内 容 较 好 ， 就 被 
排 在 前 面 ， 但 是 用 
户 看 到 的 是 和 搜索 
无 关 的 内 容 。 


索引 擎 排名 算法 的 人 ， 可 以 在 搜集 一 段 时 间 的 作 尊 信息 后 ， 将 作 上 弊 者 抓 
出 来 ， 还 原 原 有 的 排名 。 当 然 这 个 过 程 需 要 时 间 ， 就 如 同 采集 汽 车 发 动 
机 的 噪音 需要 时 间 一 样 , 在 这 段 时 间 内 , 作 浆 者 可 能 会 尝 到 些 甜头 。 因 此 ， 
有 些 人 看 到 自己 的 网 站 经 过 所 谓 的 优化 (其实 是 作 商 ) ， 排 名 在 短期 内 
靠 前 了 ， 以 为 这 种 所 谓 的 优化 是 有 效 的 。 但 是 ,不 久 就 会 发 现 排名 掉 下 
去 了 很 多 。 这 倒 不 是 搜索 引擎 以 前 宽容 ， 现 在 严厉 了 ， 而 是 说 明 抓 作弊 
需要 一 定 的 时 间 ， 以 前 只 是 还 没有 检测 到 这 些 作 尊 的 网 站 而 已 。 


从 动机 上 讲 ， 作 潍 者 无 非 是 想 让 自己 的 网 站 排名 人 靠 前 ， 然 后 获得 商业 
的 利益 。 而 帮助 别人 作 商 的 人 (他 们 上 自称 是 搜索 引 葡 优化 者 ，Search 
Engine Optimizer，SEO ) ， 他 们 也 是 要 从 中 牟利 的 。 掌 握 了 动机 就 可 以 
针对 他 们 的 动机 进行 防范 。 具 体 的 做 法 是 ， 针 对 和 商业 相关 的 搜索 ,和 采 
用 一 套 “ 抗 干扰 ” 强 的 搜索 算法 ， 这 就 如 同 在 高 噪音 环境 下 采用 抗 干扰 
的 麦克 风 一 样 。 而 对 信息 类 的 搜索 ， 采 用 “敏感 ”的 算法 ， 就 如 同 在 安 
静 环 境 下 采用 敏感 的 麦克 风 ， 对 轻微 的 声音 也 能 有 很 好 的 效果 。 那 些 卖 
链接 的 网 站 ， 都 有 大 量 的 出 链 (Onut Links ) ， 而 这 些 出 链 的 特点 和 不 作 
次 的 网 站 的 出 链 特点 大 不 相同 ( 可 能 他 们 自己 不 觉得 ) 。 每 一 个 网 站 到 
其 他 网 站 的 出 链 数目 可 以 作为 一 个 向 量 ,， 它 是 这 个 网 站 固有 的 特征 。 既 
然 是 向 量 ， 我 们 就 可 以 计算 余弦 距离 。 (余弦 定理 又 派 上 了 用 处 ! ) 我 
们 发 现 ， 有 些 网 站 的 出 链 向 量 之 间 的 余弦 距离 几乎 为 1， 一 般 来 讲 这 些 网 
站 通常 是 一 个 人 建 的 ， 目 的 只 有 一 个 : 卖 链接 。 发 现 这 个 规律 后 ， 我 们 
改进 了 PageRank 算法 ， 使 得 买 来 的 链接 基本 上 起 不 到 作用 。 


反 作 弊 用 到 的 另 一 个 工具 是 图 论 。 在 图 中 ， 如 果 有 几 个 节点 两 两 互相 都 
连接 在 一 起 ， 它 们 称 为 一 个 Clique。 作 浆 的 网 站 一 般 需 要 互相 链接 ， 以 
提高 自己 的 排名 。 这 样 在 互联 网 这 张大 图 中 就 形成 了 一 些 Clique。 图 
论 中 有 专门 的 发 现 Clique 的 方法 ， 可 以 直接 应 用 到 反 作 浆 中。 这 里 我 
们 再 次 看 到 数学 的 作用 。 至 于 术 的 层面 方法 则 很 多 ， 比 如 针对 作 岗 的 
JavaScript 跳 转 页 面 !， 通 过 解析 相应 的 JavaScript 内 容 即 可 。 
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最 后 还 要 强调 几 点 ,第 一 ，Google 反 作 油 和 恢复 网 站 原 有 排名 的 过 程 完 
全 是 自动 的 (并 没有 个 人 的 好 恶 ) ,就 如 同 手机 消除 噪音 是 自动 的 一 样 。 
一 个 网 站 要 想 长 期 排名 靠 前 ， 就 需要 把 内 容 做 好 ， 同 时 要 和 那些 作弊 网 
站 划 清 界限 。 第 二 ， 大 部 分 搜索 引擎 和 帮助 别人 作弊 的 人 ， 只 针对 占 市 
场 份 额 最 大 的 搜索 引擎 算法 来 作 浆 ， 因 为 作 素 也 是 有 成 本 的 ， 针 对 只 有 
市 场 份额 不 到 5% 的 引擎 作弊 ， 在 经 济 土 实在 不 划算 。 因 此 ， 一 个 小 的 搜 
索引 擎 作弊 少 ， 并 不 一 定 是 它 的 反 作 弊 技术 好 ， 而 是 到 它 那 里 作弊 的 人 


少 。 


近年 来 ， 随 着 主流 搜索 引擎 对 反 作 贞 持续 不 断 的 投入 ， 在 世界 上 大 多数 
国家 ， 作 兹 的 成 本 越 来 越 高 了 ， 逐渐 赶 上 其 至 超过 了 花 钱 在 搜索 引擎 上 
做 广告 的 费用 。 现 在 ,希望 提高 网 站 排名 的 商家 越 来 越 多 地 选择 通过 购 
买 搜索 广告 的 方式 来 获取 流量 ， 而 不 是 作 繁 。 一 些 体 面 的 网 站 也 和 作 台 
者 划 清 界限 。 但 是 在 中 国 恰恰 出 现 了 一 些 相反 的 趋势 一 些 网 站 ,包括 
一 些 政府 网 站 ， 为 了 蝇头 小 利 ， 出 卖 链接 。 这 样 就 诞生 了 一 个 灰色 收入 
的 行业 : 收购 和 贩卖 链接 的 中 间 商 。 当 然 ， 狐 狸 穿 过 草丛 ， 还 是 要 留 王 
痕迹 和 气味 的 ， 这 就 给 了 猎人 追捕 它们 的 线索 。 


网 页 搜索 反 作 弊 对 于 搜索 引擎 公司 来 讲 是 一 项 长 期 的 任务 。 作 弊 的 本 质 
是 在 网 页 排名 信号 中 加 人 了 噪音 ， 因 此 反 作 弊 的 关键 是 去 噪音 。 沿 着 这 
个 思路 可 以 从 根本 上 提高 搜索 算法 抗 作 弊 的 能 力 ， 事 半 功 倍 。 而 如 果 只 
是 根据 作弊 的 具体 特征 头痛 医 头 ， 脚 痛 医 脚 ， 则 很 容易 被 作 疯 者 牵 着 鼻 
子 走 。 
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第 19 音 谈 谈 数学 模型 的 重要 性 


一 直 关 注 “ 数 学 之 美 ”系列 的 读者 可 能 已 经 发 现 ， 我 们 对 任何 问题 总 是 
在 找 相 应 的 准确 的 数学 模型 。 为 了 说 明 模 型 的 重要 性 ，2006 年 7 月 我 在 
Google 中 国内 部 讲授 搜索 基本 原理 ,一 共 只 有 30 学 时 的 课程 ， 却 用 了 
整整 两 个 学 时 来 讲 数学 模型 。2010 年 我 到 腾讯 后 ,第 一 次 内 部 技术 讲座 
也 是 讲述 同样 的 内 容 。 


在 包括 哥 白 尼 、 御 利 略 和 和 牛顿 在 内 的 所 有 天 文学 家 中 ， 我 最 佩服 的 是 地 
心 说 的 提出 者 托 勒 密 ( Claude Ptolemy， 公 元 90-168 年 ) 。 





图 19.1 伟大 的 天 文学 家 托 勒 密 
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天 文学 起 源 于 古 埃及 。 由 于 尼罗河 洪水 每 年 泛滥 一 次 ， 尼罗河 下 游 有 着 十 
分 肥沃 而 且 灌 溉 方便 的 土地 ， 因 此 孕育 出 人 类 最 早 的 农业 文明 。 每 当 洪 水 
过 后 ,埃及 人 就 在 退 洪 的 土地 上 耕作 ， 然 后 便 可 获得 很 好 的 收成 。 这 种 生 
产 方式 一 直 延 续 到 20 世纪 60 年 代 ， 直到 尼罗河 上 的 阿 斯 旺 大 坝 修 成 ， 
尼罗河 下 游 再 也 没有 潜水 可 以 灌溉 土地 为 止 。 (埃及 延续 了 所 和 于 年 的 农业 
也 因此 被 破坏 殖 尽 。) 为 了 准确 预测 洪水 到 来 和 退去 的 时 间 ，6 000 年 前 
的 埃及 人 发 明了 天 文学 。 和 我 们 想象 的 不 同 ， 古 埃及 人 是 根据 天 狼 星 和 太 
阳 在 一 起 的 位 置 来 判断 一 年 中 的 时 间 和 节气 。 在 古 埃 及 的 历法 中 没有 图 年 ， 
它 的 一 个 “季度 ”也 非常 长 : 长 达 365 x 4 十 1=1461 天 ， 因 为 每 隔 这 人 么 
多 天 ， 太 阳 和 天 狼 星 一 起 升 起 。( 因此 ， 古 埃及 的 日 历 是 一 个 周期 很 长 的 
日 历 。 ) 事实 证 明 ， 以 天 狼 星 和 太阳 同时 出 现 做 参照 系 比 仅 以 太阳 做 参照 
系 更 准确 些 。 古 埃及 人 可 以 准确 地 判断 洪水 能 到 达 的 边界 和 时 间 。 





图 19.2 古 埃 及 的 农业 文明 受益 于 尼罗河 的 洪水 ， 它 直接 促进 了 天 文学 的 诞生 


到 了 人 类 文明 的 第 二 个 中 心 美 索 不 达 米 亚 兴起 的 时 候 ， 那 里 的 古巴 比 伦 
人 对 天 文学 有 了 进一步 的 发 展 ， 他 们 的 历法 中 有 了 月 和 四 季 的 概念 。 同 
时 他 们 观测 到 了 五 大 行星 ( 金 、 木 、 水 、 火 、 土 ， 肉 眼看 不 到 天 王 星 和 
海王 星 ) 运行 的 轨迹 不 是 简单 地 图 绕 地 球 转 ， 而 是 波浪 形 地 运动 。 西 方 
语言 中 行星 (Planet ) 一 词 的 意思 就 是 漂移 的 星球 。 他 们 还 观测 到 行星 在 
近日 点 运动 比 远 日 点 快 。 (图 19.3 是 在 地 球 上 看 到 的 金星 的 轨迹 , 看 过 《 达 
芬 奇 密码 》 一 书 的 读者 知道 ， 金 星 大 约 每 四 年 在 天 上 画 一 个 五 角 星 。 ) 
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图 19.3 在 地 球 上 看 到 的 金星 的 运动 轨迹 


但 是 真正 创立 了 天 文学 ， 并 且 计 算出 诸多 天 体 运 行 轨迹 的 是 近 两 千年 前 
古 罗马 时 代 的 克 劳 第 斯 ， 托 勤 密 。 虽 然 今天 我 们 可 能 会 嘲笑 托 勒 密 犯 的 
简单 错误 ， 比 如 太阳 是 围绕 地 球 旋 转 的 ， 但 是 真正 了 解 托 勒 密 贡 献 的 人 
都 会 对 他 肃然 起 敬 。 在 过 去 的 几 十 年 里 ， 因 为 政治 的 需要 ， 托 勒 密 在 中 
国 总 是 被 作为 错误 理论 的 代表 受到 批判 ， 以 至 于 中 国人 基本 上 不 知道 他 
在 人 类 天 文学 上 无 以 伦比 的 贡献 。 我 本 人 也 是 在 美国 读 了 些 科 学 史 的 书 
籍 才 了 解 到 他 的 伟大 之 处 。 作 为 数学 家 和 天 文学 家 的 托 勒 密 ， 他 有 很 多 
发 明和 贡献 , 其 中 任何 一 项 都 足以 让 他 在 科学 史上 占有 重要 的 一 席 之 地 。 
托 勒 密 发 明了 球 坐 标 ( 我们 今天 还 在 用 ) ， 定 义 了 包括 赤道 和 零度 经 线 
在 内 的 经 纬 线 (今天 的 地 图 就 是 这 么 划 的 ) ， 他 提出 了 黄道 ， 还 发 明了 
弧度 制 ( 中 学 生 学 习 的 时 候 可 能 还 会 感 党 有 点 抽象 ) 。 


当然 ， 他 最 大 也 是 最 有 争议 的 发 明 是 地 心 说 。 虽 然 我 们 知道 地 球 是 围绕 
太阳 运动 的 ， 但 是 在 当时 ， 从 人 们 的 观测 出 发 ， 很 容易 得 到 地 球 是 宇宙 
中 心 的 结论 。 中 国 古 代 著 名 天 文学 家 张衡 提出 的 浑 天 说 , 其 实 就 是 地 心 说 ， 
但 是 张衡 没有 能 定量 地 进行 描述 。 从 下 面 两 张 图 中 可 以 看 出 两 者 非常 相 
似 。 只 不 过 因为 张衡 是 中 国人 的 骄傲 ， 在 历史 书 中 从 来 是 正面 宣传 ， 而 
托 勒 密 在 中 国 却 成 了 唯心 主义 的 代表 。 其 实 ， 托 勒 密 在 天 文学 上 的 地 位 
堪 比 欧 几 里 德 之 于 几何 学 ， 牛 顿 之 于 物理 学 。 
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19.5 ”张衡 的 浑 天 仪 ( 很 像 地 心 说 的 模型 ) 
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当然 从 地 球 上 看 ,行星 的 运动 轨迹 是 不 规则 的 ， 托 勒 密 的 伟大 之 处 是 用 
40-60 个 小 圆 套 大 圆 的 方法 ， 精 确 地 计算 出 了 所 有 行星 运动 的 轨迹 ， 如 
图 19.6 所 示 。 托 勒 密 继 承 了 毕 达 格拉 斯 的 一 些 思想 ， 他 也 认为 图 是 最 完 
美的 几何 图 形 ， 因 此 用 圆 来 描述 行星 运行 的 规律 。 





图 19.6” 托 勒 密 的 小 圆 套 大 圆 的 地 心 说 模型 


托 勤 密 模型 的 精度 之 高 , 让 后 来 所 有 的 科学 家 都 惊叹 不 已 。 即 使 今天 ， 
我 们 在 计算 机 的 帮助 下 ， 人 也 很 难 解 出 40 个 套 在 一 起 的 圆 的 方程 。 每 
每 想到 这 里 ， 我 都 由 囊 地 佩服 托 勤 密 。 根 据 托 勤 密 的 计算 ， 制 定 了 癸 
略 历 ， 即 每 年 365 天 , 每 4 年 增加 一 个 头 年 ， 多 一 天 。1500 年 来 ， 
人 们 根据 他 的 计算 决定 农时 。 但 是 ,经 过 了 1 500 年 ， 托 勤 密 对 太阳 
运动 的 累积 误差 .还 是 多 出 了 10 天 。 由 于 这 十 天 的 差别 ， 欧 洲 的 农 
民 从 事 农业 生产 差 出 几乎 一 个 节气 ,很 影响 农业 。1582 年 ， 教 皇 格 
利 高 里 十 三 世 在 日 历 上 取消 掉 10 天 ， 然 后 将 每 一 个 世纪 最 后 一 年 的 
阁 年 改 成 平年 ， 然 后 每 400 年 再 插 回 一 个 闽 年 ， 这 就 是 我 们 今天 用 的 
日 历 ， 这 个 日 历 几乎 没有 误差 。 为 了 纪念 格 利 高 里 十 三 世 ， 我 们 今天 
的 日 历 也 叫做 格 利 高 里 日 历 。 
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图 19.7 ” 末 蒂 冈 圣 彼得 教堂 里 的 格 利 高 里 昔 ， 上 面 的 雕像 中 ， 教 皇 格 利 高 里 手持 新 的 历法 


虽然 格 利 高 里 十 三 世 “ 凑 出 了 ”准确 的 历法 ， 即 每 400 年 比 丑 略 历 减 去 
三 个 国 年 。 但 是 教皇 并 没有 从 理论 上 找 出 原因 ， 因 此 这 种 “ 竣 ” 的 做 法 
很 难 举一反三 。 格 利 高 里 的 历法 非常 准 地 反映 了 地 球 的 运动 周期 , 但 是 
对 其 他 行星 的 运动 规律 起 不 到 任何 帮助 。 而 纠正 地 心 说 错误 不 能 是 靠 在 
托 勒 密 40 个 圆 的 模型 上 再 多 套 上 几 个 圆 ， 而 是 要 进一步 探索 真理 。 波 
兰 天 文学 家 哥 白 尼 发 现 ， 如 果 以 太阳 为 中 心 来 描述 星体 的 运行 ， 只 需要 
8-10 个 圆 ， 就 能 计算 出 一 个 行星 的 运动 轨迹 ， 他 因此 提出 了 日 心 说 。 很 
遗憾 的 事 ， 哥 白 尼 正确 的 假设 并 没有 得 到 比 托 勒 密 更 好 的 结果 ， 他 的 模 
型 的 误差 比 托 勒 密 模 型 的 误差 要 大 不 少 。 哥 日 尼 生 前 怕 他 的 日 心 说 惹 怒 
教会 ， 迟 迟 不 敢 发 表 他 的 学 说 ， 直 到 临终 前 才 发 表 。 而 教会 初期 对 这 个 
新 的 学 说 的 革命 性 也 认识 不 足 ， 并 没有 禁止 。 但 是 后 来 当 教会 发 现 这 个 
学 说 有 可 能 挑战 上 帝 创 世 记 的 说 法 时 , 便 开始 禁止 它 了 。 而 可 日 尼 日 心 
说 的 不 准确 性 ， 也 是 教会 和 当时 的 人 们 认为 哥 日 尼 的 学 说 是 外 说 的 为 一 
个 重要 原因 。 所 以 日 心 说 要 想 让 人 心服 口服 地 接受 ， 就 得 更 准确 地 描述 
行星 运动 。 
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完成 这 一 使 命 的 是 约翰 内 斯 * 开 普 勒 。 开 普 勒 在 所 有 一 流 的 天 文学 家 中 , 资 
质 较 差 , 一 生 中 犯 了 无 数 低级 的 错误 。 但 是 他 有 两 样 别人 没有 的 东西 ， 首 
先是 从 他 的 老师 第 谷 手 中 继承 的 大 量 的 、 在 当时 最 精确 的 观测 数据 ， 其 
次 是 运气 。 开 普 勒 很 位 运 地 发 现 了 行星 围绕 太阳 运转 的 轨道 实际 上 是 椭 
贺 形 的 ， 这 样 不 需要 用 多 个 小 圆 套 大 圆 ， 而 只 要 用 一 个 酉 圆 就 能 将 星体 
运动 规律 描述 清楚 了 。 开 普 勤 为 此 提出 了 三 个 定律 ， 形 式 都 非常 简单 ， 
就 是 三 句 话 。 只 是 开 普 勒 的 知识 和 水 平 不 足以 解释 为 什么 行星 的 轨迹 是 
椭圆 形 的 。 


Jupiter 





19.8 ” 开 普 勒 的 行星 模型 


解释 行星 运动 的 轨道 为 什么 是 椭圆 形 这 个 光荣 而 艰巨 的 任务 ， 最 后 由 伟 
大 的 科学 家 牛顿 用 万 有 引力 定律 解释 得 清 清楚 楚 。 


故事 到 这 里 似乎 可 以 结束 了 。 但 是 ,许多 年 后 ， 又 有 了 个 小 的 波澜 。1821 
年 法 国 天 文学 家 布 瓦 尔 ( Alexis Bouvard ) 发 现 ， 天王星 的 实际 轨迹 和 用 
椭圆 模型 算出 来 的 不 太 符合 。 当 然 ， 偷 懒 的 办 法 是 接着 用 小 圆 套 大 圆 的 
方法 修正 ， 但 是 一 些 严肃 的 科学 家 则 努力 寻找 真正 的 原因 。 英 国 的 亚当 
斯 (John Couch Adams ) 和 法 国 的 维 内 尔 ( Urbain Le Verrier ) 在 1861- 
1862 年 间 各 自 独 立地 发 现 了 吸引 天 王 星 偏离 轨道 的 海王 星 *。 


讲座 结束 时 ， 我 给 Google 中 国 和 腾讯 的 工程 师 们 总 结 了 下 面 几 个 结论 : 


1. 一 个 正确 的 数学 模型 应 当 在 形式 上 是 简单 的 。( 托 勒 密 的 模型 
显然 太 复杂 。 ) 


1 

开 普 勒 第 一 定律 : 
行星 围绕 恒星 运动 
的 轨道 是 一 个 椭圆 ， 
而 恒星 是 这 个 杭 圆 
的 一 个 焦点 。 

开 普 勒 第 二 定律 : 
行星 和 恒星 连 线 单 位 
人 时间 寺 寺 单 位 面积 。 
开 普 勒 第 三 定律 : 
行星 绕 太 阳 公 转 周期 
的 平方 和 它们 的 情 圆 
轨道 的 半 长 轴 的 3 方 
成 正比 。 


2 
天 文学 家 伽利略 其 
实时 在 1612 年 和 
1613 年 两 次 观察 到 
海王 旺 ， 但 是 他 将 
它 误 认 为 是 一 颗 恒 
星 ， 因 此 错过 了 发 
现 海王 星 的 机 会 。 
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2， 一 个 正确 的 模型 一 开始 可 能 还 不 如 一 个 精 雕 细 琢 过 的 错误 模型 
来 的 准确 , 但 是 , 如 果 我 们 认定 大 方向 是 对 的 , 就 应 该 坚持 下 去 。( 日 
心 说 开始 并 没有 地 心 说 准确 。 ) 


3， 大 量 准 确 的 数据 对 研发 很 重要 。 (有 机 会 单独 介绍 。 ) 
4.， 正确 的 模型 也 可 能 受 噪音 和 干扰， 而 显得 不 准确 ; 这 时 不 应 该 用 


一 种 凑合 的 修正 方法 来 弥补 它 ， 而 是 要 找到 噪音 的 根源 ， 这 也 许 能 
通 往 重大 的 发 现 。 


在 网 络 搜索 的 研发 中 ， 我 们 在 前 面 提 到 的 单 文本 词 频 / 逆 文 本 频率 指数 
(TF-IDF ) 和 网 页 排名 (PageRank ) 可 以 看 作 是 网 络 搜 索 中 的 “椭圆 模 
型 ”， 它 们 都 很 简单 易 懂 。 


第 20 量 不 要 把 鸡 储 放 到 一 个 链 子 里 
-一 谈 谈 最 大 粒 模 型 


我 们 在 投资 时 和 常常 讲 不 要 把 所 有 的 鸡蛋 放 在 一 个 篮子 里 ， 这 样 可 以 降低 
风险 。 在 信息 处 理 中 ， 这 个 原理 同样 适用 。 在 数学 上 ， 这 个 原理 称 为 最 
大 燃 原 理 (The Maximum Entropy Principle ) 。 这 是 一 个 非常 有 意思 的 
题目 ,但 也 比较 深奥 ， 因 此 只 能 大 致 介绍 它 的 原理 。 


在 网 络 搜索 排名 中 用 到 的 信息 有 上 百 种 ， 腾 讯 的 工程 师 经 常 问 我 如 何 能 
把 它们 结合 在 一 起 用 好 。 更 普 这 地 讲 ， 在 信息 处 理 中 ,我们 常常 知道 各 
种 各 样 但 又 不 完全 确定 的 信息 ,我们 需要 用 一 个 统一 的 模型 将 这 些 信 息 
综合 起 来 。 如 何 综合 得 好 ， 是 一 门 很 大 的 学 问 。 


让 我 们 看 一 个 拼音 转 汉字 的 简单 例子 。 假 如 输入 的 拼音 是 “Wang-Xiao- 
Bo”， 利 用 语言 模型 ,根据 有 限 的 上 下 文 ( 比如 前 两 个 词 ) ， 能 给 出 两 
个 最 常见 的 名 字 “ 王 小 波 ” 和 “王晓波 ”。 至 于 要 唯一 确定 是 哪个 名 字 
就 难 了 ， 即 使 利用 较 长 的 上 下 文 也 做 不 到 。 当 然 ， 我 们 知道 ， 如 果 通 篇 
文章 是 介绍 文学 的 , 作家 王小波 的 可 能 性 就 较 大 ; 而 在 讨论 两 岸 关系 时 ， 
台湾 学 者 王晓波 的 可 能 性 会 较 大 。 在 上 面 的 例子 中 ， 只 需要 综合 两 类 不 
同 的 信息 , 即 主题 信息 和 上 下 文 信息 。 虽 然 有 不 少 凑合 的 办 法 , 比如: 
分 为 成 千 上 万 种 不 同 的 主题 单独 处 理 ， 或 者 对 每 种 信息 的 作用 加 权 平 均 
等 等 ， 但 都 不 能 准确 而 圆满 地 解决 问题 ， 这 就 好 比 以 前 谈 到 的 行星 运动 
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模型 中 小 圆 套 大 圆 打 补丁 的 方法 。 在 很 多 应 用 中 ， 需 要 综合 几 十 甚至 上 
百 种 不 同 的 信息 ， 这 种 小 圆 套 大 圆 的 方法 显然 行 不 通 。 


1 最 大 燃 原 理 和 最 大 焕 模 型 


数学 上 最 漂亮 的 办 法 是 最 大 (Maximum Entropy ) 模型 ， 它 相当 于 行 
星 运 动 的 李 圆 模型。 最 大 业 ”" 这 个 名 词 昕 起 来 很 深奥 ,但 它 的 原理 很 简单 ， 
我 们 每 天 都 在 用 。 说 白 了 , 就 是 要 保留 全 部 的 不 确定 性 , 将 风险 降 到 最 小 。 
让 我 们 来 看 一 个 实际 例子 。 


有 一 次 ,我 去 AT&T 实验 室 作 关 于 最 大 燃 模 型 的 报告 ,随身 带 了 一 个 骨 子 。 
我 问 听 众 “ 每 个 面 朝 上 的 概率 分 别 是 多 少 ”， 所 有 人 都 说 是 等 概率 ， 即 
各 种 点 数 的 概率 均 为 17/6。 这 种 猜测 当然 是 对 的 。 我 问 听 众 们 为 什么 , 得 
到 的 回答 是 一 致 的 : 对 这 个 “一 无 所 知 ” 的 角子 ， 假定 它 每 一 个 朝 上 概率 
均等 是 最 安全 的 做 法 。 ( 你 不 应 该 主观 假设 它 像 韦 小 宝 的 贷 子 一 样 灌 了 
铝 。) 从 投资 的 角度 看 ， 就 是 风险 最 小 的 做 法 。 从 信息 论 的 角度 讲 ， 就 
是 保留 了 最 大 的 不 确定 性 ， 也 就 是 说 让 箭 达到 最 大 。 接 着 ， 我 又 告诉 听 
众 ， 我 的 这 个 骨 子 被 我 特殊 处 理 过 ,已 知 四 点 朝 上 的 概率 是 1 /3， 在 这 
种 情况 下 ， 每 个 面 朝 上 的 概率 是 多 少 ? 这 次 ， 大 部 分 人 认为 除去 四 点 的 
概率 是 1 / 3， 其 余 的 均 是 2/15， 也 就 是 说 已 知 的 条 件 ( 四 点 概率 为 1/ 
3 ) 必须 满足 ， 而 对 其 余 各 点 的 概率 因为 仍然 无 从 知道 ， 因 此 只 好 认为 它 
们 均等 。 注 意 ， 在 猜测 这 两 种 不 同情 况 下 的 概率 分 布 时 ， 大 家 都 没有 添 
加 任何 主观 的 假设 ,诸如 四 点 的 反面 一 定 是 三 点 等 等 。 (事实 七 ， 有 的 
骨 子 四 点 的 反面 不 是 三 点 而 是 一 点 。) 这 种 基于 直觉 的 猜测 之 所 以 准确 ， 
是 因为 它 恰好 符合 了 最 大 炉 原 理 。 


最 大 粮 原理 指出 , 笑 要 对 一 个 随机 事件 的 概率 分 布 进行 预测 时 , 我 们 的 预 
测 应 当 满 足 全 部 已 知 的 条 件 , 而 对 未 知 的 情况 不 要 做 任何 主观 假设 。( 不 
做 主观 假设 这 点 很 重要 ) 在 这 种 情况 下 ， 概 率 分 布 最 均匀 ， 预 测 的 风险 
最 小 。 因 为 这 时 概率 分 布 的 信息 炉 最 大 ， 所 以 人 们 称 这 种 模型 叫 “ 最 大 
灶 模 型 ”。 我 们 常 说 ， 不 要 把 所 有 的 鸡蛋 放 在 一 个 篮子 里 ， 其 实 就 是 最 
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大 炉 原 理 的 一 个 朴素 的 说 法 ， 因 为 当 我 们 遇 到 不 确定 性 时 ， 就 要 保留 各 
种 可 能 性 。 


回 到 刚才 谈 到 的 拼音 转 汉 字 的 例子 ， 我 们 已 知 两 种 信息 ， 第 一 ， 根 据 语 
言 模型 ，Wang-Xiao-Bo 可 以 被 转换 成 王晓波 和 王小波 ; 第 二 ， 根 据 主 
题 ， 王 小 波 是 作家 ，《 黄 金 时 代 》 的 作者 等 等 ， 而 王晓波 是 台湾 研究 两 
岸 关系 的 学 者 。 因此, 就 可 以 建立 一 个 最 大 炉 模 型 , 同时 满足 这 两 种 信息 。 
现在 的 问题 是 ， 这 样 一 个 模型 是 否 存 在 。 匈 牙 利 著 名 数学 家 、 信 息 论 最 
高 奖 香农 奖 得 主 希 萨 (I., Csiszar ) 证 明 ， 对 任何 -~ 组 不 自 相 矛盾 的 信息 ， 
这 个 最 大 粒 模 型 不 仅 人 存在， 而 且 是 上 唯一 的 。 此 外 ， 它 们 都 有 同一 个 非常 
简单 的 形式 一 指数 函数 。 和 下面 的 公式 是 根据 上 下 文 〈 前 两 个 词 ) 和 主 
题 预测 下 一 个 词 的 最 大 箭 模 型 ， 其 中 ws 是 要 预测 的 词 〈 王 晓 波 或 者 王 小 
波 ) , wi 和 wz 是 它 的 前 两 个 字 ( 比如 说 它们 分 别 是 “出 版 ”和 “小 说 家 ”) ， 
也 就 是 其 上 下 文 的 一 个 大 致 估计 ，s 表示 主题 。 


1 
P{ws|w, WwW, s) -一 BO Ws) ( 20.1 ) 


其 中 2 是 归 一 化 因子， 保证 概率 加 起 来 等 于 1。 


在 上 面 的 公式 中 ， 有 几 个 参数 4 和 2Z， 它 们 需要 通过 观测 数据 训练 出 来 。 
我 们 将 在 延伸 阅读 中 介绍 如 何 训练 最 大 炳 模型 的 诸多 参数 。 


最 大 焙 模 型 在 形式 上 是 最 漂亮 、 最 完美 的 统计 模型 ， 在 自然 语言 处 理 和 
金融 方面 有 很 多 有 趣 的 应 用 。 早 期 ， 由 于 最 大 炉 模 型 计算 量 大 ， 试 图 使 
用 这 个 模型 的 科学 家 一 般 用 一 些 类 似 最 大 箭 的 近似 模型 。 谁 知 这 一 近似 ， 
最 大 焙 模 型 就 从 完美 变 得 不 完美 了 。 结 果 可 想 而 知 ， 比 打 补 丁 的 竣 合 的 
方法 也 好 不 了 多 少 。 于是, 不 少 原来 热衷 于 此 的 学 者 又 放弃 了 这 种 方法 。 
第 一 个 在 实际 信息 处 理应 用 中 验证 了 最 大 炉 模 型 的 优势 的 是 宾夕法尼亚 
大 学 马 库 斯 的 高 徒 拉 纳 帕 提 (Adwait Ratnaparkhi ) ， 原 IBM、 现 任 微 软 
的 研究 员 。 拉 纳 帆 提 的 聪明 之 处 在 于 他 没有 对 最 大 焙 模 型 进行 近似 ， 而 
是 找到 了 几 个 最 适合 用 最 大 炉 模 型 而 计算 量 相对 不 太 大 的 自然 语言 处 理 


180 | 数学 之 美 


问题 ， 比 如 词性 标注 和 句法 分 析 。 拉 纳 帕 提成 功 地 将 上 下 文 信息 、 词 性 、 
名 词 、 动 词 和 形容 词 等 句子 成 分 、 主 谓 宾 , 通过 最 大 烂 模型 结合 起 来 ， 
做 出 了 当时 世界 上 最 好 的 词性 标识 系统 和 句法 分 析 器 。 拉 纳 帕 提 的 论文 
让 人 们 耳目 一 新 。 拉 纳 帕 提 的 词性 标注 系统 ， 至 今 仍然 是 使 用 单一 方法 
最 好 的 系统 。 从 拉 纳 帕 提 的 成 就 中 ， 科 学 家 们 又 看 到 了 用 最 大 箭 模型 解 
决 复杂 的 文字 信息 处 理 问题 的 希望 。 


在 2000 年 前 后 ， 由 于 计算 机 速 庶 的 提升 以 及 训练 算法 的 改进 ， 很 多 复杂 
的 问题 都 可 以 采用 最 大 业 模 型 了 , 包括 句法 分 析 、 语 言 模型 和 机 器 翻译 。 
最 大 精 模 型 和 一 些 简 单 组 合 特征 的 模型 相 比 , 效果 可 以 提升 几 个 百分点 。 
对 于 那些 对 产品 质量 不 是 很 看 重 的 人 和 公司 来 讲 ， 这 几 个 百分点 或 许 不 
足以 给 使 用 者 带 来 明显 的 感受 , 但 是 如 果 投 资 的 收益 能 增长 哪怕 百 分 之 
一 ， 获 得 的 利润 也 是 数 以 亿 计 的 。 因 此 ， 华 尔 街 回来 最 喜欢 使 用 新 技术 
来 提高 他 们 交易 的 收益 。 而 证 券 ( 股票 、 债 券 等 ) 的 交易 需要 考虑 非常 
多 的 复杂 因素 ， 因 此 , 很 多 对 冲 基 金 开始 使 用 最 大 炉 模 型 ， 并 且 取 得 了 
很 好 的 效 采 。 


2 最 大 焕 模 型 的 训练 


最 大 录 模 型 在 形式 上 非常 简单 ,但 是 在 实现 上 却 非 常 复 杂 , 计算 量 非 常 大 。 
假定 我 们 搜索 的 排序 需要 考虑 20 种 特征 ，{X1,Xx2,.…,Xx20}， 需 要 排序 的 网 
页 是 d， 那 么 即使 这 些 特 征 互相 独立 ， 对 应 的 最 大 焕 模 型 也 是 “很 长 ”的 


Pl(d|x, x2, | X20) 


1 


二 et1X1.d)+A2(X2,0)+.+A20(X20,4) ( 20.2) 
Z(X1, 2 : 


其 中 归 一 化 因子 
Z (x,, X2, ..., X20) = NiXuA) tA XIA) + +A20 (X20,0) { 20.3 ) 
d 


这 个 模型 里 有 很 多 参数 A 需要 通过 模型 的 训练 来 获得 。 
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最 原始 的 最 大 烂 模型 的 训练 方法 是 一 种 称 为 通用 迭代 算法 GIS 
( Generalized Iterative Scaling ) 的 欠 代 算法 。GIS 的 原理 并 不 复杂 ， 大 
致 可 以 概括 为 以 下 几 个 步骤 : 


1， 假 定 第 零 次 迭代 的 初始 模型 为 等 概率 的 均匀 分 布 。 


2.， 用 第 N 次 迭代 的 模型 来 估算 每 种 信息 特征 在 训练 数据 中 的 分 布 。 
如 采 超 过 了 实际 的 ， 就 把 相应 的 模型 参数 变 小 。 否 则 ,将 它们 变 大 。 


3， 重 复 步 又 2 直到 收敛 。 


GIS 最 早 是 由 达 诺 奇 (]. N. Darroch ) 和 拉 特 克利 夫 (DD. Ratcliff ) 在 上 
个 世纪 70 年 代 提 出 的 ， 它 是 一 个 典型 的 期 望 值 最 大 化 算法 ( Expectation 
Maximization ， 简 称 EM ) 。 但 是 ,这 两 人 没 能 对 这 种 算法 的 物理 含义 做 
出 很 好 的 解释 。 后 来 是 由 数学 家 希 萨 解释 清楚 的 。 因 此 ， 人 们 在 谈 到 这 
个 算法 时 ， 总 是 同时 引用 达 诺 奇 和 拉 特 克利 夫 以 及 希 萨 的 两 篇 论文 。GIS 
算法 每 次 迭代 的 时 间 都 很 长 , 需要 选 代 很 多 次 才能 收敛 , 而 且 不 太 稳定 ， 
即使 在 64 位 计算 机 上 都 会 出 现 溢出 。 因 此 ， 在 实际 应 用 中 很 少 有 人 真正 
使 用 GIS。 大 家 只 是 通过 它 来 了 解 最 大 灶 模 型 的 算法 。 


上 个 世纪 80 年代， 天 赋 蜡 豪 的 达 拉 皮 垂 挛 生 兄 弟 (《Della Pietra ) 在 
IBM 对 GIS 算法 做 了 两 方面 改进 ， 提 出 了 改进 迭代 算法 IIS (Improved 
Iterative Scaling )。 这 使 得 最 大 和 模 型 的 训练 时 间 缩 短 了 一 到 两 个 数量 级 。 
这 样 最 大 入 模型 才 有 可 能 变 得 实用 。 即 使 如 此 ， 在 当时 也 只 有 IBM 有 条 
件 使 用 最 大 燃 模 型 。 


但 是 ， 昌 大 颂 模型 的 计算 量 仍然 是 个 拦路 虎 。 我 在 学 校 时 花 了 很 长 时 间 
考虑 如 何 简 化 最 大 粹 模型 的 计算 量 。 有 很 长 一 段 时 间 里， 我 的 研究 方式 
就 和 书 呆 子 陈景润 一 样 ， 每 天 一 支 笔 ,一 玲 纸 ， 不 停 地 推导 。 终 于 有 一 
天 ， 我 对 生 己 的 导师 说 : 我 发 现 一 种 数学 变换 ， 可 以 将 大 部 分 最 大 信 模 
型 的 训练 时 间 在 IIS 的 基础 上 减少 两 个 数量 级 。 我 在 黑板 上 推导 了 一 个 多 
小 时 ， 他 没 从 我 的 推导 中 找 出 任何 破绽 。 接 着 他 又 回去 想 了 两 天 ， 然 后 
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1 

现在 用 MapReduce 
的 工具 ， 在 1000 
台 计 算 机 上 并 行 计 
算 ， 一 天 就 可 以 完 
成 了 。 

2 

Www.cs.jhu.edur ~ 


junwu/publications. 
html 


确认 我 的 算法 是 对 的 。 从 此 ， 我们 就 构造 了 一 些 很 大 的 最 大 焕 模 型 。 
这 些 模型 比 修 修 补 补 的 凑合 的 方法 好 不 少 。 即 使 在 我 找到 了 快速 训练 算 
法 以 后 ， 为 了 训练 一 个 包含 上 下 文 信息 、 主 题 信息 和 语法 信息 的 文法 模 
型 (Language Model ) ， 我 并 行使 用 了 20 台 当 时 最 快 的 SUN 工作 站 ， 
仍然 计算 了 三 个 月 。 由 此 可 见 最 大 糖 模型 复杂 的 一 面 。 最 大 炳 模型 快速 
算法 的 实现 很 复杂 。 到 今天 为 止 ， 世 界 上 能 有 效 实 现 这 些 算 法 的 也 不 到 
一 百人 。 有 兴趣 实现 一 个 最 大 焙 模 型 的 读者 可 以 阅读 我 的 论文 。 


最 大 炉 模 型 ,可 以 说 是 集 简 繁 于 一 体 : 形式 简单 ,实现 复杂 。 值 得 一 提 的 是 ， 
在 Google 的 很 多 产品 比如 机 器 翻译 中 ， 都 直接 或 间接 地 用 到 了 最 大 入 
模型 。 


讲 到 这 里 ， 读 者 也 许 会 问 ， 当 年 最 早 改 进 最 大 入 模 型 算法 的 达 拉 皮 垂 兄 
弟 这 些 年 难道 没有 做 任何 事 吗 ? 他 们 在 上 个 世纪 90 年 代 初 要 里 尼克 离 
开 IBM 后 ， 也 退出 了 学 术 界 ， 而 到 金融 界 大 显 身 手 。 他 们 两 人 和 很 多 
IBM 做 语音 识别 的 同事 一 同 到 了 一 家 当时 还 不 大 ， 但 现在 是 世界 上 最 成 
功 的 对 冲 基 金 ( Hedge Fund ) 公司 一 文艺 复兴 技术 公司 ( Renaissance 
Technologies ) 。 我 们 知道 , 决定 股票 涨 落 的 因素 可 能 有 几 十 甚至 上 百 种 ， 
而 最 大 炉 方法 恰恰 能 找到 一 个 同时 满足 成 千 上 万 种 不 同 条 件 的 模型 。 在 
那里 ， 达 拉 皮 垂 兄 弟 等 科学 家 用 最 大 入 模型 和 其 他 一 些 先 进 的 数学 工具 
对 股票 进行 预测 ， 获 得 了 巨大 的 成 功 。 从 该 基金 1988 年 创立 至 今 ， 它 的 
净 回 报 率 高 达 平 均 每 年 34%。 也 就 是 说 ， 如 果 1988 年 你 在 该 基金 投入 一 
块 钱 ，20 年 后 的 2008 年 你 能 得 到 200 多 块 钱 。 这 个 业绩 ， 远 远 超过 股 
神 巴菲特 的 旗舰 公司 伯 克 希 尔 哈 撒 韦 (Berkshire Hathaway ) 。 同 期 ， 介 
克 希 尔 哈 撒 韦 的 总 回报 是 16 倍 。 而 在 金融 危机 的 2008 年 ,全球 股 市 坎 跌 ， 
文艺 复兴 技术 公司 的 回报 却 高 达 80%， 可 见 数学 模型 的 历 害 。 
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3 小 结 


最 大 箭 模型 可 以 将 各 种 信息 整合 到 一 个 统一 的 模型 中 。 它 有 很 多 良好 的 
特性 : 从 形式 上 看 ， 它 非常 简单 ， 非 常 优美 ， 从 效果 上 看 ， 它 是 唯一 一 
种 既 可 以 满足 各 个 信息 源 的 限制 条 件 ， 同 时 又 能 保证 平滑 (Smooth ) 性 
的 模型 。 由 于 最 大 米 模 型 具有 这 些 良 好 的 特性 ， 它 的 应 用 范围 因而 十 分 
广泛 。 但 是 ， 最 大 炉 模 型 的 计算 量 巨 大 ， 在 工程 上 实现 方法 的 好 坏 决 定 
了 模型 的 实用 与 否 。 
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第 21 章 拼音 输入 法 的 数学 原理 


亚洲 语言 及 所 有 非 罗马 拼音 式 的 语言 (Non-Roman Languages ) 的 输入 
原本 是 个 问题 ,但 是 近 20 年 来 ， 以 中 国 为 代表 的 亚洲 国家 在 输 人 法 方面 
有 了 长 足 的 进步 ， 现 在 已 经 不 是 人 们 使 用 计算 机 的 障碍 了 。 以 中 文 输 人 
为 例 ， 过 去 的 25 年 里 ， 输 入 法 基本 上 经 历 了 以 自然 音节 编码 输入 ， 到 偏 
旁 笔画 拆字 输入 , 再 回归 自然 音节 输入 的 过 程 。 和 任何 事物 的 发 展 一 样 ， 
这 个 螺旋 式 的 回归 不 是 简单 的 重复 ， 而 是 一 种 升华 。 


输入 法 输入 汉字 的 快慢 取决 于 对 汉字 编码 的 平均 长 度 ,用 通俗 的 话 来 讲 ， 
就 是 击 键 次 数 乘 以 寻找 这 个 键 所 需要 的 时 间 。 单 纯 地 减少 编码 长 度 未 必 
能 提高 输入 速度 ， 因 为 寻找 一 个 键 的 时 间 可 能 变 得 较 长 。 提 高 输入 法 的 
效率 在 于 同时 优化 这 两 点 ， 而 其 中 有 着 坚实 的 数学 基础 。 我 们 可 以 通过 
数学 的 方法 说 明 平 均 输 入 一 个 汉字 和 需要 多 少 次 击 键 ， 如 何 编码 能 够 使 得 
输入 法 接近 理论 上 的 最 小 值 ， 同 时 寻找 一 个 键 的 时 间 又 不 至 于 过 长 。 


1 输入 法 与 编码 


将 一 个 方块 形状 的 汉字 输入 到 计算 机 中 ， 本 质 上 是 一 个 将 我 们 人 为 约 
定 的 信息 记录 编码 一 汉字 ,和 转换 成 计算 机 约定 的 编码 ( 国标 码 或 者 
UTF-8 码 ) 的 信息 转换 过 程 。 键 盘 是 一 种 主要 的 输入 工具 ， 当 然 还 可 以 
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有 其 他 输入 工具 ， 比 如 手写 板 和 麦克 风 。 一 般 来 讲 ， 键 盘 上 可 使 用 的 只 
有 26 个 字母 加 上 10 个 数字 键 作为 对 汉字 编码 的 基本 键 , 外 加 一 些 控制 键 。 
因此 ， 最 直接 的 编码 方式 就 是 让 这 26 个 字母 对 应 拼音 ， 当 然 ， 为 了 解决 
汉字 的 一 音 多 字 问 题 ， 得 用 10 个 数字 键 来 消除 歧义 性 。 


这 里 面 ， 对 汉字 的 编码 分 为 两 部 分 :对 拼音 的 编码 (参照 汉语 拼音 标准 
即 可 ) 和 消 队 皮 义 性 的 编码 。 对 一 个 汉字 编码 的 长 度 取决 于 这 两 方面 ， 
只 有 当 这 两 个 编码 都 缩短 时 ， 汉 字 的 输入 才能 够 变 快 。 早 期 的 输入 法 常 
党 只 注重 第 一 部 分 而 忽视 第 二 部 分 。 


虽然 全 拼 输 入 法 和 汉语 拼音 标准 一 致 ， 容 易学 习 ， 但是， 拼音 输入 法 早 
期 甚至 是 双 拼 早 于 全 拼 , 原因 是 为 了 缩短 对 拼音 的 编码 。 在 双 拼 输入 法 中 ， 
每 个 声母 和 前 和 母 只 用 一 个 键 即 可 表示 。 中 国 最 早 可 以 输 人 汉字 的 微机 中 
华 学 习 机 和 长 城 0520， 分 别 对 应 苹果 系列 和 IBM 系列 ， 采 用 的 都 是 双 拼 
的 输入 方案 。 人 台湾 地 区 用 的 注音 字母 也 等 效 于 双 拼 。 各 家 的 双 拼 对 应 键 
盘 字 母 的 方式 还 略 有 不 同 ， 以 微软 公司 为 例 ， 对 应 如 下 : 


表 21.1 声母 和 键盘 字母 对 应 表 


韵母 iu ua enuanvan ue uai uo unwvn ong,iong 
可 键盘 字母 q WwW r t y 0 p 5 
韵母 uang,iang en eng ang an ao ai ing 
键盘 字母 d f BE h j k 1 
韵母 ei ie iao uj,ue ou in iam 
键盘 字 和 母 zZ x c v b n m 


这 些 输 入 方法 看 似 节 省 了 一 点 编码 长 度 , 但 是 输入 一 点 也 不 快 ， 因 为 它 
们 只 优化 了 局 部 ， 而 伤害 了 整体 。 首 先 ， 双 拼 输 人 法 增加 了 编码 上 的 此 
义 性 : 键盘 的 字母 只 有 26 个 ， 可 是 汉语 的 声母 和 韵 母 总 和 却 有 50 多 
个 。 从 上 表 中 可 以 看 到 ， 很 多 韵母 不 得 不 共享 一 个 字母 键 。 增 加 歧义 性 
的 结果 就 是 从 更 多 汉字 候选 中 找到 目 己 想 输 入 的 字 ， 也 就 是 增加 消除 歧 
义 性 编码 的 长 度 : 不 断 地 重复 “ 翻 页 ， 扫 描 后 续 字 ”的 过 程 。 第 二 ， 它 
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增加 了 每 一 次 击 键 的 时 间 。 因 为 双 拼 的 方法 不 自然 ， 比 全 拼 的 方法 多 出 
来 一 道 将 读音 拆 成 声母 和 韵母 编码 的 过 程 。 认 知 科学 的 研究 表明 ， 在 脱 
稿 输入 时 ， 拆 字 的 过 程 会 使 得 思维 变 慢 。 第 三 ， 双 拼 对 读音 的 容错 性 
不 好 ， 因 为 前 鼻音 an、en、in 和 对 应 的 后 鼻音 ang、eng、ing， 卷 舌 音 
ch、sh、zh 和 相应 的 平 舌 音 ( 非 卷 舌 音 ) 编码 完全 没有 相似 性 。 全 中 国 
除了 阔 京 周围 的 人 ， 大 部 分 人 前 鼻音 和 后 鼻音 、 卷 舌 音 和 非 卷 舌 音 多 少 
有 点 分 不 清 ， 经 常 出 现 输入 韵母 和 声母 后 ， 翻 了 好 几 页 ， 也 找 不 到 自己 
想 要 的 字 的 情况 。 原 因 是 一 开始 就 选 错 了 韵母 或 者 声母 。 一 个 好 的 输入 
法 不 能 要 求 用 户 一 定 得 把 每 个 字 的 音 都 读 准 ， 就 如 同一 架 普 及 型 的 照相 
机 不 应 该 要 求 使 用 者 精通 光圈 和 快门 速度 的 设置 。 


由 于 种 种 原因 ， 早 期 的 拼音 输 和 人 法 不 是 很 成 功 ， 这 就 给 其 它 输入 法 的 迅 
速 崛 起 创造 了 条 件 。 很 快 , 各 种 输入 法 如 雨后春笋 般 地 冒 了 出 来 , 总 数 上 ， 
有 的 报道 说 有 上 千 种 ， 有 的 报道 说 有 三 于 多 种 。 各 种 输入 法 的 专利 到 20 
世纪 90 年 初 已 经 有 上 千 件 ， 以 至 于 一 些 专家 认为 中 国 软件 行业 之 所 以 上 
不 去 , 是 因为 大 家 都 去 做 输入 法 了 。 所 有 这 些 输入 法 ， 除了 少数 对 拼音 输 
人 法 的 改进 ， 大 多 是 利用 26 个 字母 和 10 个 数字 对 汉字 库 〈 当时 一 般 只 
考虑 二 级 国标 汉字 ) 中 6300 个 左右 的 常见 字 直 接 编 码 。 大 家 知道 ， 即 使 
只 用 26 个 字母 编码 ， 三 个 键 的 组 合 也 可 以 表示 26 ~ 17000 个 汉字 ， 因 
此 ,所 有 这 些 编码 方法 都 宣称 自己 能 两 三 个 键 就 输入 一 个 汉字 ,常见 字 两 
个 键 ， 非 常见 字 三 个 键 也 足够 了 。 其 实 这 里 面 没有 什么 学 问 ， 很 容易 做 
到 。 但 是 ， 这 些 复杂 的 编码 要 让 人 记 住 几乎 是 不 可 能 的 ， 因 此 这 里 面 的 
艺术 就 是 如 何 将 编码 和 汉字 的 偶 旁 、 笔 画 或 者 读音 结合 ， 让 人 记 住 。 妆 
然 ， 每 一 种 编码 都 宣称 自己 比 其 他 方法 更 合理 ， 输 入 更 快 。 因 为 这 些 输 
人 法 的 编码 方法 从 信息 论 的 角度 来 看 都 在 同一 个 水 平 ， 互 相 也 比 不 出 什 
么 优 劣 。 但 是 为 了 证 明 自 己 的 方法 比 别 人 的 快 ， 大 家 继续 走 偏 ， 单 纯 追 
求 击 键 次 数 少 ， 最 直接 的 方法 就 是 对 词组 进行 编码 ， 但 这 样 一 来 ， 使 用 
者 就 更 无 法 记 住 了 ， 只 有 这 些 输入 法 的 表演 者 能 记 住 。 这 已 经 不 是 技术 
的 比赛 ， 而 是 市 场 的 竞争 。 最 后 ， 王 永 民 的 五 笔 输 和 人 法 暂时 胜出 ,但 
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并 不 是 他 的 编码 方法 更 合理 ， 而 是 他 比 其 他 发 明 者 〈 大 多 数 是 书 呆 子 ) 
更 会 做 市 场 而 已 。 现 在 ， 即 使 五 笔 输 入 法 也 已 经 没有 多 少 市 场 了 ， 这 一 
批发 明 人 可 以 说 是 全 军 覆 没 。 


这 一 代 输 入 法 的 问题 在 于 减少 了 每 个 汉字 击 键 的 次 数 ， 而 忽视 了 找到 每 
个 键 的 时 间 。 要 求 非 专业 使 用 者 背 下 这 些 输 入 方法 里 所 有 汉字 的 编码 是 
不 现实 的 ， 这 比 背 6000 个 GRE 单词 还 难 。 因 此 ， 他 们 在 使 用 这 些 输入 
方法 时 都 要 按照 规则 临时 “拆字 ”， 即 找到 一 个 字 的 编码 组 合 ， 这 个 时 
间 不 仅 长 ， 而 且 在 脱 稿 打字 时 严重 中 断 思维 。 本 书 一 开头 就 强调 语言 和 
文字 作为 通信 的 编码 手段 ， 一 个 重要 目的 是 帮助 思维 和 记忆 。 如 果 一 个 
输入 法 中 断 了 人 们 的 思维 过 程 ， 就 和 人 的 自然 行为 不 相符 合 。 认 知 科学 
已 经 证 明 , 人 一 心 无 二 用 。 过 去 在 研究 语音 识别 时 做 过 很 多 用 户 测试 ， 
发 现 使 用 各 种 复杂 编码 输入 法 的 人 在 脱 稿 打字 时 ， 速 度 只 有 他 在 看 稿 打 
字 时 的 一 半 到 四 分 之 一 。 因 此 ， 虽 然 每 个 字 平 均 敲 键 次 数 少 ,但 是 敲 键 
盘 的 速度 也 慢 了 很 多 ， 总 的 来 看 并 不 快 。 因 此 ， 广 大 中 国 计 算 机 用 户 对 
这 一 类 输入 法 的 认可 度 极 低 ， 这 是 自然 选择 的 结果 。 


最 终 ， 用户 还 是 选择 了 拼音 输入 法 ， 而 且 是 每 个 单词 编码 较 长 的 全 拼 输 
人 法 。 虽 然 看 上 去 这 种 方法 输 和 人 每 个 汉字 需要 多 殴 几 个 字 ， 但 是 有 三 个 
优点 让 它 的 输入 速度 并 不 慢 。 第 一 ， 它 不 需要 专门 学 习 。 第 二 ， 输 入 自 
然 ， 不 会 中 断 思 维 ， 也 就 是 说 找 每 个 键 的 时 间 非 常 短 。 第 三 ， 因 为 编码 
长 ， 有 信息 宛 余 量 ， 容 错 性 好 。 比 如 对 分 不 清 非 前 鼻音 an、en、in 和 
后 鼻音 ang、eng、ing 的 人 来 讲 ， 输 入 zhan( 贞 ) 这 个 字 ， 即 使 他 以 
为 拼音 是 卷 舌 音 zhang， 当 输入 一 半 的 时 候 , 已 经 看 到 自己 要 找 的 字 了 ， 
就 会 停 下 来 ， 避 人 免 了 双 拼 的 那 种 不 容错 的 问题 。 当 然 ， 拼 音 输 入 法 要 解 
决 的 问题 只 剩 下 排除 一 音 多 字 的 歧义 性 了 ， 只 要 这 个 问题 解决 了， 拼音 
输入 法 照样 能 做 到 击 键 次 数 和 那些 拆字 的 方法 差不多 ， 这 也 是 目前 各 种 
拼音 输入 法 做 的 主要 工作 。 接 下 来 我 们 就 分 析 平 均 输 入 一 个 汉字 可 以 做 
到 最 少儿 次 击 键 。 
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2 输入 一 个 汉字 需要 毅 多 少 个 键 一 谈 谈 香农 第 一 定理 


从 理论 上 分 析 ， 输 入 汉字 到 底 能 有 多 快 ? 这 里 需要 用 到 信息 论 中 的 香农 
第 一 定律 。 


假定 在 国标 GB2312 里 面 , 一 共有 6 700 多 个 常用 的 汉字 。 如 果 不 考虑 汉 
字 频 率 的 分 布 ， 用 键盘 上 的 26 个 字母 对 汉字 进行 编码 ， 两 个 字母 的 组 合 
只 能 对 676 个 汉字 编码 ， 对 6 700 多 个 汉字 进行 编码 需要 用 三 个 字母 的 
组 合 ， 即 编码 长 度 为 三 。 当 然 ， 陪 明 的 读者 马上 发 现 了 我 们 可 以 对 更 常 
见 的 字 用 较 短 的 编码 ， 对 不 太 常 见 的 字 用 较 长 的 编码 ， 这 样 平均 下 来 ， 
每 个 汉字 的 编码 长 度 可 以 缩短 。 假 定 每 一 个 汉字 出 现 的 相对 频率 是 


Pp1: P2, Pa,** , Pe700 ( 21.1) 

Li, Lz, L3,.… ,Le700 ( 21.2) 
那么 ， 平均 编码 长 度 是 

Pi Li 十 Da 2 t+ ps‘Lst+*+ peroo' Le7o00 ( 21.3) 


香农 第 一 定理 指出 : 对 于 一 个 信息 ,任何 编码 的 长 度 都 不 小 于 它 的 信息 凿 。 
因此 ， 上 面 平均 编码 长 度 的 最 小 值 就 是 汉字 的 信息 简 , 任何 输入 法 不 可 能 
突破 信息 箭 给 定 的 极限 。 这 里 需要 指出 的 是 ,如果 将 输入 法 的 字库 从 国标 
GB2312 扩展 到 更 大 的 字库 GBK， 由 于 后 者 非常 见 字 的 频率 非常 小 ， 平 
均 编码 长 度 比 针对 国标 的 大 不 了 多 少 。 因 此 本 书 中 就 以 国标 字库 为 准 。 


现在 让 我 们 来 回忆 一 下 汉字 的 信息 炉 ( 见 第 6 章 “ 信 息 的 度量 和 作用 ”) 
H = 一 pl .1og Pa 一 pz -log pz 一 … 一 D6zoo log pezoo ( 21.4) 


如 果 对 每 一 个 字 进 行 统计 ， 而 且 不 考虑 上 下 文 相关 性 ， 大 致 可 以 估算 出 
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它 的 值 在 10 比特 以 内 ， 当 然 这 取决 于 用 什么 语料库 来 做 估计 。 如 果 假 定 
输入 法 只 能 用 26 个 字母 输入 ， 那 么 每 个 字母 可 以 代表 log26 = 4.7 比特 的 
信息 ， 也 就 是 说 ， 输 人 一 个 汉字 平均 需要 部 10 / 4.7 = 2.1 次 键 。 


聪明 的 读者 也 许 已 经 发 现 , 如 果 把 汉字 组 成 词 ,再 以 词 为 单位 统计 信息 焙 ， 
那么 ， 每 个 汉 罕 的 平均 信息 箭 将 会 减少 。 这 样 ， 平 均 输 入 一 个 字 可 以 少 
敲 零点 斤 次 键盘 。 不 考虑 词 的 上 下 文 相关 性 ， 以 词 为 单位 统计 ， 汉 字 的 
信息 精 大 约 是 8 比特 左右 ， 也 就 是 说 ， 以 词 为 单位 输入 一 个 汉字 平均 只 
需要 敲 8 /4.7 = 1.7 次 键 。 这 就 是 现在 所 有 输入 法 都 是 基于 词 输入 的 根本 
原因 。 当 然 ， 如 果 再 考虑 上 和 下文 的 相关 性 ， 对 汉语 建立 一 个 基于 词 的 统 
计 语 言 模型 ( 见 第 3 章 “ 统 计 语 言 模 型 ”) ， 可 以 将 每 个 汉字 的 信息 炳 
降 到 6 比特 左右 ， 这 时 ， 输 入 一 个 汉字 只 要 敲 6 / 4.7 = 1.3 次 键 。 如 果 一 
种 输入 方法 能 做 到 这 一 点 ， 那 么 汉字 的 输入 已 经 比 英文 快 得 多 了 。 


但 是 , 事实 上 没有 一 种 输入 方法 接近 这 个 效率 。 这 里 面 有 两 个 主要 原因 。 
首先 ， 要 接近 信息 论 给 的 这 个 极限 ， 就 要 对 汉字 的 词组 根据 其 词 频 进行 
特殊 编码 。 我 们 在 上 一 节 中 讲 到 ,过 于 特殊 的 编码 其 实 欲 速 不 达 。 其 次 ， 
在 个 人 计算 机 上 ， 很 难 安装 非常 大 的 语言 模型 。 因 此 ， 这 种 编码 方法 理 
论 上 讲 有 效 ， 但 不 实用 。 


现在 看 看 全 拼 的 拼音 输入 法 能 够 做 到 输入 一 个 汉字 平均 多 少 次 击 键 。 汉 
语 全 拼 的 平均 长 度 为 2.98， 只 要 基于 拼音 EC 
决 一 音 多 字 的 问题 ， 平 均 每 个 汉字 输入 的 禹 键 次 数 应 该 在 三 次 以 内 ， 

分 钟 输入 100 个 字 全 有 可 能 达 到 。 切 果 能 名 更 多 地 利用 上 下 叉 相 站， 
可 以 做 到 当 句 子 中 一 个 汉字 的 拼音 属 完 一 部 分 的 时 候 ， 这 个 汉字 了 砚 被 提 
示 出 来 ， 因 此 ， 全 拼 输 入 法 的 平均 击 键 次 数 应 该 小 于 3。 


因此 ， 接 下 来 的 任务 就 是 如 何 利用 上 下 文 了 。10 年 前 的 拼音 输入 法 (以 
紫光 为 代表 ) 解决 这 个 问题 的 办 法 是 建立 大 词 库 ， 词 也 越 来 越 多 ， 越 来 
越 长 , 最 后 把 整 句 唐诗 都 作为 一 个 词 。 这 个 办 法 多 少 能 解决 一 些 问 题 ， 
但 如 果 统 计 一 下 就 会 发 现 帮 助 并 不 大 。 因 为 在 汉语 中 ， 虽 然 长 词 的 数量 
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可 以 非常 多 ， 多 到 几 十 万 , 但 是 一 字 词 和 二 字 词 占 文本 的 大 多 数 。 而 一 
字 词 和 二 字 词 恰恰 是 一 音 多 字 情 况 最 严重 的 ， 比 如 “zhi” 有 275 个 (以 
Google 拼音 输入 法 统计 ) ， 二 字 词 “shi-yan” 有 14 个 。 这 些 不 是 简单 增 
加 词典 大 小 能 解决 的 。 增 大 词典 ， 多少 是 根据 经 验 和 直觉 自发 的 行为 ,这 
就 和 地 心 说 在 无 法 解释 行星 不 规律 运动 轨迹 时 ， 用 大 圆 套 了 几 个 小 圆 的 
方法 次 出 了 结果 一 样 。 为 了 解决 这 些 问 题 ， 接 下 来 很 多 输入 法 ,包括 目 
前 一 些 很 流行 的 输 和 人 法， 把 常见 的 词组 和 词 的 组 合 (比如 “我 是 ”) 放 到 
词典 中 去 。 但 是 汉语 有 四 五 万 常用 的 一 字 词 和 二 字 词 ， 这 些 词 的 合理 组 
合 是 上 千 万 万 至 上 亿 ， 总 不 能 都 放 到 词典 中 吧 。 因 此 枚 举 词 的 组 合 的 做 
法 ， 如 同 在 小 圆 上 再 套 一 些 更 小 的 圆 ， 其 绪 果 可 能 距离 真理 更 近 ， 但 
依然 不 是 真理 。 


而 利用 上 下 文 最 好 的 办 法 是 借助 语言 模型 。 只 要 承认 概率 论 ， 就 无 法 否 
认 语 言 模型 可 以 保证 拼音 转 汉字 解决 一 首 多 字 问 题 ) 的 效果 最 好 。 假 
定 有 大 小 不 受 限制 的 语言 模型 ， 是 可 以 达到 信息 论 给 出 的 极限 输入 速度 
的 。 但 是 在 产品 中 ， 不 可 能 占用 用 户 太 多 的 内 存 空 间 ， 因 此 各 种 输入 法 
只 能 提供 给 用 户 一 个 压缩 得 很 厉害 的 语音 模型 。 而 有 的 输入 法 为 了 减 小 
内 存 占 用 ,或 者 没有 完全 筷 握 拼音 转 汉字 的 解码 技巧 根本 就 没有 语言 
模型 。 这 样 一 来 ， 当 今 的 输入 法 和 极限 输入 速度 相 比 还 有 不 少 可 提升 的 
空间 。 目 前 ,各 家 拼音 输入 法 《Google 的 、 腾 讯 的 和 搜狗 的 ) 基本 处 在 
同一 个 量 级 ， 将 来 技术 上 进一步 提升 的 关键 就 在 于 看 谁 能 准确 而 有 效 地 
建立 语言 模型 。 当 然 利 用 语言 模型 将 拼音 捉 自 动 转 成 汉字 ， 要 有 合适 的 
算法 ， 这 束 是 下 一 市 要 讨论 的 问题 。 


3 ”拼音 转 汉 字 的 算法 


拼音 转 汉 字 的 算法 和 在 导航 中 寻找 最 短路 径 的 算法 相同 , 都 是 动态 规划 。 
这 听 起 来 多 少 有 点 牵强 ， 拼 音 输 入 法 和 导航 又 有 什么 关系 呢 ? 


其 实 可 以 将 汉语 输入 看 成 一 个 通信 问题 ， 而 输入 法 则 是 一 个 将 拼音 串 变 
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到 汉字 串 的 转换 器 。 每 一 个 拼音 可 以 对 应 客人 个 汉字 ， 把 一 个 拼音 串 对 应 
的 汉字 从 左 到 右 连 起 来 ， 就 是 一 张 有 向 图 ， 它 被 称 为 网 格 图 或 者 篇 乞 图 
(Lattice ) ， 形 式 如 下 : 





21.1 “拼音 到 汉字 转换 解码 的 网 格 图 


其 中 ， 芒 , 因 ,》a, 3nw 是 使 用 者 输入 的 拼音 串 ; wiawiz,wis 是 第 一 个 音 六 
的 候选 汉字 (我们 在 后 面 的 公式 中 用 变量 w 代表 这 三 个 候选 汉字 ) 
wa wazwaswa 是 对 应 于 为 的 候选 汉字 ， 以 变量 ws 统一 代表 ， 以 此 类 推 。 
从 第 一 个 字 到 最 后 一 个 字 可 以 组 成 很 多 很 多 句子 ， 每 一 个 句子 和 图 中 的 
一 条 路 径 一 一 对 应 。 拼 音 输入 法 就 是 要 根据 上 下 文 在 给 定 拼音 条 件 下 找 
到 一 个 最 优 的 句子 ， 即 


Wi WwW2 ,WN = ArgMax Plw,, Wa "WH |Y1 2,°"° YN) ( 21.5) 
w 


对 应 到 上 图 中 ， 就 是 要 找 从 起 操 到 终点 的 一 条 最 短路 径 。 而 要 寻找 最 短 
路 径 ， 首 先 要 定义 图 中 两 个 节点 之 间 的 上 距离。 回顾 我 们 在 “ 隧 合 马尔 可 
夫 模 型 ”一 章 中 介绍 上 面 公式 的 简化 方法 ， 


Wi Wo2) "Wn 
一 ArgMax P(y71 y2， ww Wa mWN) * P{W1, wy, ,WN) 
wEW 


N 
沪 ArgMax| [PC(wilwi-1) “ POyilw) (21.6) 
WE 人 j=1 
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如 果 对 上 面 公式 中 的 概率 取 对 数 同 时 取 反 ， 妈 定义 d (Wi-1Wi) = 
一 logP(wilwi-1)' Piwi)， 上 面 的 连 乘 关系 变 成 加 法 ,寻找 最 大 概率 的 
问题 就 变 成 了 寻找 最 短路 径 的 问题 。 这 样 就 可 以 直接 利用 动态 规划 算法 
实现 拼音 输入 法 中 最 重要 的 拼音 到 汉字 的 转换 问题 。 对 比 在 卫星 导航 中 
寻找 两 个 地 点 之 间 的 最 短 距 离 ， 我 们 发 现 它们 可 以 完全 对 应 起 来 。 唯 一 
的 差别 就 是 在 导航 图 中 ,节点 (城市 ) 之 间 是 真实 的 距离 ， 而 在 拼音 申 
转 为 汉字 的 网 格 图 中 ， 两 个 节点 〈 词 ) wii 和 wi 之 间 的 距离 是 转移 概率 
和 生成 概率 的 乘积 一 logP (wilwi-1) :POIwi)。 


这 个 拼音 输入 法 的 例子 和 前 面 第 12 章 “ 地 图 和 本 地 搜索 的 最 基本 技术 
一 有 限 状 态 机 和 动态 规划 ”中 提 到 的 导航 系统 看 似 没什么 关系 ,但 是 其 
背后 的 数学 模型 却 完全 一 样 。 数 学 的 妙 处 在 于 它 的 每 一 个 工具 都 具有 相 
当 的 普遍 性 ， 在 不 同 的 应 用 中 都 可 以 发 挥 很 大 的 作用 。 


4 延伸 阅读: 个 性 化 的 语言 模型 
读者 知识 背景 : 概率 论 。 


现 有 的 汉字 拼音 输入 法 距离 信息 论 给 的 极限 还 有 很 大 的 差距 ， 可 提升 的 
空间 很 大 ,会 有 越 来 越 好 用 的 输 和 方法 不 断 涌 现 。 当 然 ， 速 度 只 是 输入 
法 的 一 个 而 不 是 唯一 的 衡量 标准 -一 当 输 入 速度 超过 一 定 阔 值 后 ， 用 户 
的 体验 可 能 更 重要 。 


从 理论 上 上 讲 ， 只 要 语言 模型 足够 大 ， 拼 音 输入 法 的 平均 击 键 次 数 就 可 以 
接近 信息 论 给 的 极限 值 。 如 果 把 输入 法 放 在 云 计算 上 ， 这 是 完全 可 以 实 
现 的 ， 而 在 客户 端 上 〈 比如 个 人 电脑 上 ) 这 样 做 不 现实 。 好 在 客户 端 有 
客户 端的 优势 ， 可 以 建立 个 性 化 的 语言 模型 。 


个 性 化 的 出 发 点 是 不 同人 平时 写 的 东西 主题 不 同 , 由 于 文化 程度 的 差异 ， 
用 的 词 也 不 同 ， 说 话 和 写作 的 水 平 也 不 同 ， 因 此 ， 他 们 各 自 应 该 有 各 自 
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的 语言 模型 。 


我 们 在 Google 统计 发 现 ， 这 个 假设 是 对 的 ， 且 不 说 表达 主题 意义 的 实 词 
会 因 人 而 异 ， 恺 是 不 同 的 地 方 、 不 同 的 文化 背景 和 受 教 育 程度 的 人 使 用 
的 虚词 都 有 明显 的 不 同 。 因 此 ， 如 果 每 个 人 有 各 自 的 语言 模型 ， 用 拼音 
输入 时 ， 候 选 词 次 序 的 排列 一 定 比 通用 的 输入 法 排 得 好 。 


接 下 来 有 两 个 问题 需要 解决 。 首 先是 如 何 训 练 一 个 个 性 化 的 语言 模型 ， 
其 次 是 处 理 好 它 和 通用 语言 模型 的 关系 。 


为 每 个 人 训练 一 个 特定 的 语言 模型 ， 最 好 是 收集 足够 多 这 个 人 自己 写 的 
文字 ， 但 是 一 个 人 一 辈子 写 的 东西 不 足以 训练 一 个 语言 模型 。 训 练 一 个 
词汇 量 在 几 万 的 二 元 模型 ， 需 要 几 千 万 词 的 语 料 ， 即 使 是 职业 作家 或 者 
记者 ， 一 辈子 都 不 可 能 写 这 么 多 的 文章 。 没 有 足够 多 的 训练 数据 ， 训 练 
出 的 (高 阶 ) 请 言 模型 基本 上 没有 用 。 当 然 训练 一 个 一 元 模型 不 需要 太 
多 数据 ， 一 些 输入 法 (自发 地 ) 找到 了 一 种 经 验 做 法 : 用 户 词典 ， 这 实 
际 上 是 一 个 小 规模 的 一 元 模型 加 上 非常 小 量 的 六 元 组 〈 比如 一 个 用 户 征 
义 的 词 ABC， 实 际 是 一 个 三 元 组 ) 。 


更 好 的 办 法 是 找到 大 量 符合 用 户 经 常 输入 的 内 容 和 用 语 习惯 的 语 料 ， 训 
练 一 个 用 户 特定 的 语言 模型 。 这 里 面 的 关键 显然 是 如 何 找到 这 些 符 合 条 
件 的 语 料 。 这 次 又 要 用 到 余弦 定理 和 文本 分 类 的 技术 了 。 整 个 训 红 用 户 
特定 的 语言 模型 步骤 如 下 : 


1， 可 以 将 训练 语 育 模型 的 文本 按照 主题 分 成 很 多 不 同 的 类 别 ， 比 
如 1000 个 ，Cr Ca ,Cio006 


2， 对 于 每 个 类 ， 找 到 它们 的 特征 同 量 (TEF-IDE ) Xi1,X2,X3,.…， 
Xio0o0。 这 两 条 我 们 在 以 前 都 讲 过 。 


3， 统 计 某 个 人 输入 的 文本 ， 得 到 他 输入 的 词 的 特征 疝 量 Y。 
4, 计算 了 和 Xi1,X， us ,及 1000 的 余弦 ( 距离 ) 0 


第 21 章 ”拼音 输入 法 的 数学 原理 || 195 


5， 选 择 前 K 个 和 Y 距离 最 近 的 类 对 应 的 文本 ， 作 为 这 个 特定 用 户 语 
言 模型 的 训练 数据 。 


6， 训 练 一 个 用 户 特定 的 语言 模型 Wi 。 


在 大 部 分 情况 下 ，M 对 这 个 特定 用 户 的 输入 比 通用 模型 Mo 好 。 但 是 对 于 
相对 偶 个 的 内 容 ，Mi 的 效果 就 远 不 如 通用 的 模型 Mo 了， 因为 Mi: 的 训练 数 
据 比 Mo 的 小 一 两 个 数量 级 ， 履 盖 的 语言 现象 少 得 多 。 因 此 ， 一 个 更 好 的 
办 法 就 是 综合 这 两 个 模型 。 


我 们 在 最 大 篇 模型 中 介绍 过 ， 把 各 种 特征 综合 在 一 起 最 好 的 方法 是 采用 
最 大 炳 模型 。 当 然 ， 这 个 模型 比较 复杂 ， 训 练 时 间 较 长 ， 如 果 为 每 一 个 
人 都 建立 这 样 一 个 模型 ， 成 本 较 高 。 因 此 可 以 采用 一 个 简化 的 模型 : 线 
性 插值 的 模型 。 


假定 MM 和 Mi 都 是 二 元 模型 ， 它们 计算 出 的 (wi-ywi) 的 条 件 概 率 分 别 是 
PoGwilwi-z 和 疡 (wilwi-) 。 新 的 模型 为 M'， 计 算 的 条 件 概率 应 该 是 


P' (wilwi-n) = NWwi1) Po(wilwi- + (1 — ACWi_1)) * Pi(wilwi1) 


其 中 ，0 < 4(wi-1) < 1 是 一 个 插值 参数 。 由 于 信息 炉 (对 应 语言 模型 的 复 
杂 度 ) 是 一 个 凸 函 数 ,线性 组 合 P' 的 人 比 Po 和 P 灼 线性 组 合 小 ， 因 此 
新 的 组 合 模型 不 确定 性 少 ， 是 更 好 的 模型 。 也 就 是 说 ， 将 个 性 化 模型 和 
原来 的 通用 模型 组 合 ， 得 到 的 新 模型 更 好 。 


这 种 线性 捅 值 的 模型 比 最 大 入 模型 效果 略 差 ， 但 是 能 得 到 大 约 80% 的 收 
益 。( 如 果 最 大 焕 模 型 比 原来 的 通用 模型 的 改进 收益 是 100% 的 话 。 ) 顺 
便 说 一 句 ，Google 拼音 的 个 性 化 语言 模型 就 是 这 么 实现 的 。 


1 

凹 甸 数 的 定义 :如 
打 一 个 函数 六 ， 满 
足 条 件 Fexs+(l 
一 日 zz) < tf(x) + 
(11 一己 六 xz) ,那么 
这 个 函数 称 为 凸 函 
数 。 


196 上 儿 数学 之 美 


5 小 结 


议 字 的 输入 过 程 本 喘 就 是 人 和 计算 机 的 通信 ， 好 的 输入 法 会 自觉 或 者 不 


自觉 地 遵循 通信 的 数学 模型 。 当 然 要 做 出 最 有 效 的 输入 法 ， 应 当 自觉 使 
用 信息 论 做 指导 。 
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22.1 马 库 斯 


将 自然 语言 处 理 从 基于 规则 的 研究 方法 转 到 基于 统计 的 研究 方法 上 ， 贡 
献 最 大 的 有 两 个 人 ， 一 个 是 我 们 前 面 介 绍 过 的 机 里 尼克 ， 他 是 一 位 开创 
性 人 物 , 另 一 个 是 将 这 个 研究 方法 进一步 发 扬 光 大 的 米奇 * 马 库 斯 ( Mitch 
Marcus ) 。 和 贾 里 尼克 不 同 ， 马 库 斯 对 这 个 领域 的 贡献 不 是 直接 的 发 
明 ， 而 是 通过 他 造福 于 全 世界 研究 者 的 宾夕法尼亚 大 学 LDC 语料库 以 及 
他 的 众多 优秀 弟子 。 这 些 优 秀 弟子 ， 包 括 我 前 面 章节 中 介绍 的 一 大 批 年 
轻 有 为 的 科学 家 ， 迈 克 尔 * 柯林斯 ( Michael Collins ) ， 艾 里 克 “' 布莱尔 
( Eric Brill ) ， 大 卫 ， 雅 让 斯 基 ( David Yarowsky ) ， 拉 纳 帕 提 ( Adwait 
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1 

因为 宾夕法尼亚 大 
学 又 简称 UPenn， 
或 者 Penn， 这 个 由 
该 大 学 领头 建立 的 
数据 库 便 被 命名 为 
Penn Tree Bank。 
Tree Bank 直接 的 意 
思 是 ( 语法 ) 树 的 
银行 ， 圳 筷 大 量 的 
语法 树 。 


Ratnaparkhi) ， 以 及 很 多 在 腾 省 理工 学 院 和 约翰 ，。 稚 普 金 斯 大 学 等 世 
界 一 流 大 学 和 IBM 等 公司 的 研究 所 担任 终身 教 职 和 研究 员 的 科学 家 。 就 
像 许多 武侠 小 说 中 描写 的 ， 弟 子 都 成 了 各 派 的 掌 门 ， 师 人 一 定 了 不 得 。 
的 确 , 马 库 斯 虽然 作为 第 一 作者 发 表 的 论文 并 不 多 ,但 是 从 很 多 角度 上 讲 ， 
他 可 以 说 是 自然 语言 处 理 领 域 的 教父 。 


和 机 里 尼克 一 样 ， 马 库 斯 也 毕业 于 麻 省 理工 学 院 ， 同 样 ， 他 也 经 历 了 从 
工业 界 (AT&T 贝尔 实验 室 ) 到 学 术 界 ( 宾夕法尼亚 大 学 ) 的 转移 。 刚 
到 宾夕法尼亚 大 学 时 ， 马 库 斯 在 利用 统计 的 方法 进行 句子 分 析 上 做 出 了 
不 少 成 绩 。 而 这 方面 恰恰 是 机 里 尼克 和 IBM 的 科学 家 没有 做 过 的 。 在 马 
库 斯 以 前 ， 基 于 统计 的 自然 语言 处 理 为 语言 学 术 界 所 诉 病 的 一 个 原因 是 
统计 的 方法 很 难 进行 “深入 的 ”分 析 ， 马 库 斯 的 工作 证 明 统 计 的 方法 比 
规则 的 方法 更 适合 对 自然 语言 做 深入 的 分 析 。 但 是 ， 随 着 工作 的 深入 以 
及 研究 结果 的 不 断 进步 ， 马 库 斯 发 现 两 大 问题 ， 首先， 可 以 用 于 研究 的 
统计 数据 明显 不 够 ; 其 次 ， 各国 科学 家 因为 使 用 的 数据 不 同 ,论文 里 发 
表 的 结果 无 法 互相 比较 。 


马 库 斯 比 很 多 同行 更 旱地 发 现 建 立 标准 语料库 在 自然 语言 处 理 研 究 中 的 
重要 性 。 于 是 , 马 库 斯 利用 自己 的 影响 力 ,让 美国 自然 科学 基金 会 ( National 
Science Foundation， 简 称 NSF ) 和 DARPA 出 资 立项 ， 联 络 了 多 所 大 
学 和 斌 究 机 构建 立 了 数 百 个 标准 的 语料库 组 织 (Linguistic Data 
Consortium， 简 称 LDC ) 。 其 中 最 著名 的 语料库 是 Penn Tree Bank 。 
Penn Tree Bank 起 初 是 收集 了 一 些 真 实 的 书面 英语 (华尔街 日 报 少 ) 语 句 ， 
人 工 进 行 词性 标注 和 语法 树 构 建 等 ， 作 为 全 世界 自然 语言 处 理学 者 研究 
和 实验 的 统一 语料库 。 后 来 ， 由 于 它 被 全 世界 认可 ,美国 自然 科学 基金 
会 不 断 追 加 投入 ， 建 立 起 了 者 盖 多 种 语言 (包括 中 文 ) 的 语料库 。 对 每 
一 种 语言 ， 它 有 几 十 万 到 几 百 万 字 的 有 代表 性 的 句子 ， 每 个 句子 都 有 词 
性 标注 、 语 法 分 析 树 等 。LDC 后 来 又 建立 了 语音 、 机 器 翻译 等 很 多 数据 库 ， 
为 全 世界 自然 语言 处 理科 学 家 共享 。 如 今 ,在 自然 语言 处 理 方面 发 表 论 文 ， 
几乎 都 要 提供 基于 LDC 语料库 的 测试 结果 。 
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在 过 去 20 年 机 器 学 习 和 自然 语言 处 理 领 域 ，80% 的 成 果 来 自 于 数据 量 的 
增加 。 马 库 斯 对 这 些 领 域 数据 的 贡献 可 以 说 是 独一无二 的 。 当 然 ， 和 凭借 
对 数据 的 贡献 ， 还 不 足以 让 马 库 斯 获得 教父 的 地 位 。 马 库 斯 有 点 像 日 本 
围棋 领域 的 木 谷 实 *“， 他 的 影响 力 很 大 程度 上 是 靠 他 的 弟子 传播 出 去 的 。 


给 予 他 的 博士 生 研 究 自己 感 兴趣 的 课题 的 自由 ， 这 是 他 之 所 以 桃李 满 天 
下 的 原因 。 马 库 斯 的 博士 生 研 究 的 题目 覆盖 了 目 然 语 言 处 理 的 很 多 领域 ， 
而 且 题 目 之 间 几 和平 没有 相关 性 ， 因 为 这 些 题目 大 多 是 博士 生 自 己 找 的 ， 而 
不 是 马 库 斯 指定 的 。 他 的 做 法 和 中 国 大 部 分 博士 生 导 师 完 全 不 同 。 马 库 
斯 对 几乎 所 有 的 自然 语言 处 理 领域 都 有 独到 的 见解 ， 马 库 斯 让 博士 生 提 
出 自己 有 兴趣 的 课题 ， 或 者 用 他 已 有 的 经 费 支持 学 生 ， 或 者 去 为 他 们 的 
项 目 申请 经 费 。 马 库 斯 高 屋 建 领 ， 能 够 很 快 地 判断 一 个 研究 方向 是 哲 正 
确 ， 省 去 了 博士 生 很 多 做 无 谓 党 试 (Try-And-Error ) 的 时 间 。 因 此 他 
的 博士 毕业 生 质 量 非常 高 ， 而 且 有 些 很 快 就 拿 到 了 博士 学 位 。 


由 于 马 库 斯 宽松 的 管理 方式 ， 他 培养 的 博士 生 在 研究 和 生活 上 都 是 个 性 
过 异 。 有 些 人 善于 找到 间接 快速 的 方法 和 容易 做 出 成 绩 的 题目 ， 有 的 人 
习惯 哨 硬 骨头 : 有 些 人 三 四 年 就 拿 到 博士 去 当 教 授 了 , 而 有 些 人 “ 赖 在 ” 
学 校 里 七 八 年 不 走 ， 最 后 出 一 篇 高 质量 的 博士 论文 。 这 些 各 有 特点 的 年 
轻 学 者 ， 后 来 分 别 能 适应 文化 过 蜡 的 各 个 大 学 和 公司 。 


马 库 斯 教授 长 期 担任 宾夕法尼亚 大 学 计算 机 系 主 任 ， 直 到 2002 年 从 
AT&T 实验 室 找 到 费尔南多 . 皮 耶 尔 替 代 他 为 止 。 作 为 一 个 管理 者 ， 马 
库 斯 在 专业 设置 方面 显示 出 远见 卓识 ， 马 库 斯 将 宾夕法尼亚 大 学 规模 很 
小 的 计算 机 系 发 展 成 在 学 术 界 具有 盛名 和 影响 力 的 强 系 。 在 世界 各 种 大 
学 研究 生 院 的 排名 中 , 一 般 来 讲 , 规模 大 的 院 系 比 规模 小 的 要 占 不 少 便宜 ， 
因为 前 者 学 科 齐 全 。 马 库 斯 的 风格 是 把 一 个 系 变 强 而 不 是 变 大 。 马 库 斯 
在 几 年 前 互联 网 很 热门 、 很 多 大 学 开始 进行 互联 网 研究 时 ， 看 到 生物 信 
息 学 (Bioinformatics ) 的 重要 性 ， 在 宾夕法尼亚 大 学 设立 这 个 专业 ， 并 
且 在 其 他 大 学 还 没有 意识 到 时 ， 开 始 招聘 这 方面 的 教授 。 马 库 斯 还 建议 


2 
日 本 著名 的 围棋 教 
育 家 ， 他 的 弟子 石 
田 方 去 、 加 芯 正 
夫 、 武 宫 正 树 、 小 
林 光 一 和 赵治勋 在 
1970-2000 年 统治 
日 本 棋 坛 30 年 。 
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一 些 相关 领域 的 教授 ， 包 括 后 来 的 系 主任 皮 耶 尔 把 一 部 分 精力 转 到 生物 
信息 学 方面 。 等 到 网 络 泡沫 破裂 以 后 ， 很 多 大 学 的 计算 机 系 开始 向 生物 
信息 学 转向 ,但 是 发 现 已 经 很 难 找 到 这 个 领域 好 的 教授 了 。 


我 有 幸 和 他 同 在 约翰 : 霍 普 金 斯 大 学 计算 机 系 的 顾问 委员 会 任职 多 年 ,每 
年 有 两 次 在 一 起 讨论 计算 机 系 的 研究 方向 。 和 宾夕法尼亚 大 学 类 似 ， 约 
翰 . 堆 普 金 斯 大 学 的 计算 机 系 也 很 小 ， 发 展 也 面临 则 样 的 问题 。 马 库 其 
的 主张 一 贯 是 建立 几 个 世界 上 最 好 的 专业 ， 而 不 是 专业 最 齐全 的 系 。 我 
觉得 ， 当 今 中 国 的 大 学 ， 最 需要 的 就 是 马 库 斯 这 样 卓 有 远见 的 管理 者 。 


2 ”从 宾夕法尼亚 大 学 走出 的 精英 们 


当今 自然 语言 处 理 领 域 年 轻 一 代 的 世界 级 专家 ， 相 当 大 一 部 分 来 自 宾 夕 
法 尼 亚 大 学 马 库 斯 的 实验 室 。 他 们 为 人 做 事 风 格 过 异 ， 共 同 的 特点 是 年 
轻 有 为 。 这 里 介绍 其 中 两 人 ， 迈 克 尔 .柯林斯 和 艾 里 珊 ， 布 菜 尔 ， 因 为 
他 们 代表 两 种 截然 不 同 的 风格 。 


2.1 柯林斯 : 追求 完美 


我 在 “数学 之 美 ” 系列 中 一 直 强 调 一 个 好 方法 在 形式 上 应 该 是 简单 的 。 
但 是 ， 事实 上 ， 自 然 语 言 处 理 中 也 有 一 些 特例 ， 比 如 有 些 学 者 将 一 个 问 
题 研 究 到 极致 ， 执 著 追 求 完 善 其 至 可 以 说 达到 完美 的 程度 。 他 们 的 工作 
对 同行 有 很 大 的 参考 价值 ， 因 此 在 科研 中 很 需要 这 样 的 学 者 。 在 目 然 语 
言 处 理 方 面 新 一 代 的 顶级 人 物 迈 克 尔 , 柯林斯 就 是 这 样 的 人 。 


柯林斯 1993 年 从 剑桥 大 学 硕士 毕业 后 , 师 从 自然 语言 处 理 大 师 马 库 斯 ， 
用 五 年 多 时 间 完 成 了 博士 论文 ， 从 宾夕法尼亚 大 学 获得 博士 学 位 。 在 他 
的 师兄 弟 中 ,他 比 用 三 年 拿 到 博士 学 位 的 雅 让 斯 雪 要 长 很 多 , 但 是 比 赖 
在 学 校 不 走 的 思 斯 勒 (Jason Eisner ) 要 快 不 少 。 但 无 论 是 比 他 花 的 时 间 
长 的 ， 还 是 短 的 ， 论 文 做 得 都 没有 柯林斯 好 。 
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在 做 博士 期 间 ， 柯 林 斯 写 了 一 个 后 来 以 他 名 字 命 名 的 自然 语言 文法 分 析 
器 (Sentence Parser ) ， 可 以 对 书面 语 的 每 一 句 话 进行 准确 的 文法 分 析 。 
前 面 提 到 ， 文 法 分 析 被 认为 是 很 多 自然 语言 应 用 的 基础 。 柯 林 斯 的 师兄 
布 荣 尔 和 拉 纳 帕 提 以 及 师弟 轧 斯 勒 都 完成 了 相当 不 错 的 语言 文法 分 析 器 ， 
照 理 讲 ， 柯 林 斯 不 应 该 再 选择 这 个 课题 了 ， 因 为 很 难 出 成 果 。 但 柯林斯 
却 是 一 个 要 把 技术 潜力 挖掘 到 极致 的 人 ， 他 在 这 方面 的 追求 很 像 乔 布 斯 
在 产品 上 的 追求 。 他 的 师兄 弟 选择 这 个 题目 都 是 为 了 验证 自己 的 理论 : 
布 菜 尔 是 为 了 证 明 他 的 “基于 变换 ”的 机 器 学 习 方法 的 有 效 性 ， 拉 纳 帕 
提 是 为 了 证 明 最 大 炉 模 弄 ， 恩 斯 勒 是 为 了 证 明 有 限 状态 机 。 柯 林 斯 和 他 
的 师兄 弟 不 同 ， 他 做 文法 分 析 咽 的 出 发 点 不 是 为 了 验证 一 个 理论 ， 而 第 
要 做 一 个 世界 上 最 好 的 分 析 疮 。 


在 这 样 的 思想 指导 下 ， 柯 林 斯 做 出 了 在 相当 长 一 段 时 间 内 世界 上 最 好 的 
文法 分 析 器 。 柯 林 斯 成 功 的 关键 在 于 将 文法 分 析 的 每 一 个 细节 都 研究 得 
很 仔细 。 柯 林 斯 用 的 数学 模型 也 很 漂亮 , 整个 工作 可 以 用 完美 来 形容 。 
我 曾 因 为 研究 的 需要 ， 找 柯林斯 要 过 他 文法 分 析 器 的 源 程序 ， 他 很 爽快 
地 给 了 我 。 我 试图 将 他 的 程序 修改 一 下 来 满足 我 特定 应 用 的 要 求 ， 但 后 
来 发 现 ， 他 的 程序 细节 太 多 ， 以 至 于 很 难 进一步 优化 。 柯 林 斯 不 是 成 功 
做 出 文法 分 析 器 的 第 一 人 ， 甚 至 不 是 第 二 、 第 三 人 。 但 是 从 某 种 程度 上 
讲 可 能 是 最 后 一 人 ， 在 过 去 的 七 八 年 里 ， 他 还 在 这 个 领域 不 渐 改 进 ， 不 
断 突 破 ， 大 有 其 他 科学 家 从 此 不 必 再 做 文法 分 析 器 的 深 势 ! 


柯林斯 的 博士 论文 堪 称 自然 语言 处 理 领域 的 范文 。 它 像 一 本 优秀 的 小 说 ， 
把 所 有 事情 的 来 龙 去 脉 介绍 得 清 清楚 楚 ， 任 何 有 一 点 计算 机 和 上 自然 语言 
处 理 知识 的 人 ， 都 可 以 轻而易举 读 懂 他 复杂 的 方法 。 


柯林斯 毕业 后 ， 在 AT&T 实验 室 度 过 了 三 年 快乐 的 时 光 。 在 那里 柯林斯 
完成 了 许多 世界 一 流 的 研究 工作 ， 诸 如 隐 含 马尔 可 夫 模 型 的 区 别 性 训练 
方法 ， 卷 积 核 在 自然 语言 处 理 中 的 应 用 ， 等 等 。 三 年 后 ，AT&T 停止 了 
自然 语言 处 理 方面 的 研究 ,柯林斯 幸运 地 在 麻 省 理工 学 院 找到 教 职 。 在 
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3 
花旗 银行 的 CEQ。 


和 4 

网 美 一 些 大 学 设 有 
以 私人 或 者 机 构 命 
名 的 教 席 授予 
著名 的 教授 。 比 
如 剑桥 大 学 著名 的 
上 户 卡 斯 数学 教 席 
( Lucasian Mathe- 
matics Professor ) 
曾经 授予 牛 额 、 狼 
拉克 等 著名 科学 家 ， 
当代 著名 物理 学 家 
震 金 也 曾 担任 此 教 
席 。 


麻 省 理工 学 院 的 短 短 七 年 间 ， 柯 林 斯 三 次 获得 EMNLP 最 佳 论 文 奖 ， 两 
次 获得 UAI 最 佳 论文 奖 和 一 次 CoNLL 最 佳 论 文 奖 。 一 般 一 个 一 流 的 科 
学 家 ， 一 生 也 就 获得 两 三 次 最 佳 论 文 奖 ， 而 柯林斯 把 获奖 当成 了 家 常 便 
饭 ! 相 比 其 他 同行 ， 这 种 成 就 是 世界 上 独一无二 的 。 柯 林 斯 的 特点 就 是 
把 事情 做 到 极致 。 如 果 说 有 人 喜欢 “繁琐 哲学 ”， 柯 林 斯 就 是 一 个 。 


柯林斯 在 麻 省 理工 学 院 获 得 了 终身 教 职 后 ，2011 年 被 哥伦比亚 大 学 以 潘 
迪 特 (Vikram Pandit )” 教 席 的 教授 职位 “ 控 走 。 


2.2 布莱尔 : 简单 才 美 


在 研究 方法 上 , 站 在 柯林斯 对 立 面 的 典型 是 他 的 师兄 艾 里 克 : 布莱尔、 
拉 纳 帕 提 和 雅 让 斯 基 等 , 后 面 两 人 在 前 面 章 节 中 已 经 介绍 过 了 。 与 柯林斯 
从 工业 界 到 学 术 界 相反 ， 和 布莱尔 的 职业 路 径 是 从 学 术 界 走 到 工业 界 。 前 
者 在 学 术 界 换 了 大 学 ， 后 者 到 了 工业 界 后 也 换 过 公司 。 与 柯林斯 的 研究 
方法 相反 , 布 菜 尔 总 是 试图 寻找 简单 得 不 能 再 简单 的 方法 。 但 相同 的 是 ， 
二 人 的 职位 都 越 做 越 高 。 布 菜 尔 的 成 名 作 是 基于 变换 规则 的 机 器 学 习 方 
法 《Transformation Rule Based Machine Learning ) 。 这 个 方法 名 称 虽 
然 很 复杂 ， 其 实 非 常 简单 。 以 拼音 转 汉 字 为 例 来 说 明 它 : 


第 一 步 ， 把 每 个 拼音 对 应 的 汉字 中 最 常见 的 找 出 来 作为 第 一 遍 变换 的 结 
果 ， 当 然 结果 有 不 少 错误 。 比 如 ，“ 常 识 ” 可 能 被 转换 成 “长 识 ”， 


第 二 步 ， 可 以 说 是 “去 伪 存 真 ”， 用 计算 机 根据 上 下 文 ， 列举 所 有 的 同 
音字 替换 的 规则 ， 比 如 ， 如 果 chang 被 标识 成 “长 ”, 但 是 后 面 的 汉字 
是 “ 识 ” ， 则 将 “长 ” 改 成 “ 常 ” ; 


第 三 步 , 应 该 就 是 “去 粗 取 精 ” ,将 所 有 的 规则 应 用 到 事先 标识 好 的 语 料 中 ， 
挑 出 有 用 的 ， 删 掉 无 用 的 。 然 后 重复 二 三 步 ， 直 到 找 不 出 有 用 的 为 止 。 


布 菜 尔 就 靠 这 人 么 简单 的 方法 ， 在 很 多 目 然 语言 赋 究 领域 ， 取 得 了 几乎 最 
好 的 绪 果 。 由 于 他 的 方法 再 简单 不 过 了 ， 许 许多 多 的 人 都 跟着 学 。 布 菜 
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尔 可 以 算是 我 在 美国 的 第 一 个 业 师 ， 我 们 俩 就 用 这 么 简单 的 方法 作词 
性 标注 (Part of Speech Tagging ) ， 也 就 是 把 句子 中 的 词 标 成 名 词 动 
词 ， 很 多 年 内 无 人 能 超越 。 ( 最 后 超越 我 们 的 是 后 来 加 入 Google 的 一 
名 和 荷兰 工程 师 ， 用 的 是 同样 的 方法 ， 但 是 做 得 细致 很 多 。 ) 布莱尔 离开 
学 术 界 后 去 了 微软 研究 院 。 在 那里 的 第 一 年 ， 他 一 人 一 年 完成 的 工作 比 
组 里 其 他 所 有 人 许多 年 做 的 工作 的 总 和 还 多 。 后 来 ,布莱尔 又 加 入 了 一 
个 新 组 ， 依 然 是 高 产科 学 家 。 据 说 ， 他 的 工作 真正 被 微软 重视 要 感谢 
Google, 因为 有 了 Google, 微软 才 对 他 从 人 力 物 力 上 给 予 了 巨大 的 支持 ， 
使 得 布莱尔 成 为 微软 搜索 研究 的 领军 人 物 之 一 。 在 研究 方面 ， 布 莱 尔 有 
时 不 一 定 能 马上 知道 应 该 怎么 做 , 但 是 能 马上 否定 掉 一 种 不 可 能 的 方案 。 
这 和 他 追求 简单 的 研究 方法 有 关 ， 他 能 在 短 时 间 内 大 致 摸 清 每 种 方法 的 
好 坏 。 


如 果 说 柯林斯 是 个 “ 务 于 精 纯 ”的 精深 专 才 ， 布 菜 尔 则 更 像 “ 观 其 大 栈 ” 
的 通才 。 在 微软 研究 院 ， 布 菜 尔 创建 了 数据 挖 据 和 搜索 研究 领域 ， 并 
在 此 基础 上 将 它 变 为 微软 互联 网 研究 中 心 (Internet Service Research 
Center ) ， 后 来 又 作为 总 经 理 管理 着 微软 的 广告 实验 室 (AdCenter 
Lab ) 。2009 年 布莱尔 离开 微软 到 eBay, 出 任 CTO 兼 主管 研究 的 副 总 裁 。 


布 菜 尔 总 是 善于 寻找 简单 却 有 效 的 方法 ， 而 又 从 不 隐瞒 自己 的 方法 ， 所 
以 他 总 是 很 容易 被 包括 我 在 内 的 很 多 人 赶 上 和 超过 。 好 在 布 芋 尔 对 此 毫 
不 介意 ， 而 且 很 喜欢 别人 追赶 他 ， 因 为 ， 当 人 们 在 一 个 研究 方向 上 超过 
他 时 , 说 明 他 开创 的 领域 有 意义 ,同时 他 已 经 调转 船 头 驶 向 其 他 方向 了 。 
2005 年 Google 上 市 后 ， 微 软 对 搜索 的 投入 加 大 力度 ， 我 和 他 的 位 置 调 
换 了 一 下 ， 因 为 微软 成 了 Google 的 追赶 者 。 当 我 告诉 他 我 们 的 位 置 调 了 
个 个 几时， 布莱尔 对 我 说 ， 有 一 件 事 我 永远 追 不 上 他 ， 那 就 是 他 上 比 我 先 
有 了 第 二 个 孩子 。 
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第 23 章 布 隆 过 滤器 


1 布 隆 过 滤 圳 的 河 理 


在 日 常生 活 中 , 包括 设计 计算 机 软件 时 ,经常 要 判断 一 个 元 素 是 否 在 一 个 
集合 中 。 比 如, 在 字 处 理 软件 中 , 需要 检查 一 个 英语 单词 是 否 拼写 正确 (也 
就 是 要 判断 它 是 否 在 已 知 的 字典 中 ) ; 在 FBI， 一 个 嫌疑 人 的 名 字 是 否 
已 经 在 嫌疑 名 单 上 ; 在 网 络 候 虫 里 ,一 个 网 址 是 否 已 访问 过 ， 等 等 。 最 
直接 的 方法 就 是 将 集合 中 全 部 的 元 素 存 在 计算 机 中 , 遇 到 一 个 新 元 素 时 ， 
将 它 和 集合 中 的 元 素 直 接 比较 即 可 。 一 般 来 讲 ， 计 算 机 中 的 集合 是 用 哈 
希 表 ( Hash Table ) 来 存储 的 。 它 的 好 处 是 快速 准确 , 缺点 是 耗费 存储 空间 。 
当 集 合 比较 小 时 ， 这 个 问题 不 明显 ， 当 集合 规模 巨大 时 ， 哈 希 表 存储 效 
率 低 的 问题 就 显现 出 来 了 。 比 如 ， 一 个 像 Yahoo 、Hotmail 和 Gmail 那 
样 的 公众 电子 邮件 ( Email ) 提供 商 ， 总 是 需要 过 滤 来 自发 送 垃圾 邮件 的 
人 【〈 Spamer ) 的 二 圾 邮件 。 采 用 的 一 个 办 法 就 是 记录 下 那些 发 垃圾 邮件 
的 Email 地 址 。 由 于 那些 发 送 者 不 停 地 在 注册 新 的 地 址 ， 全 世界 少 说 也 
有 郊 十 亿 个 发 垃圾 邮件 的 地 址 ， 将 这 些 地 址 都 存 起 来 ， 需 要 大 量 的 网 络 
服务 器 。 如 果 用 哈 希 表 ， 每 存储 一 亿 个 Email 地 址 ， 就 需要 1.6GB 的 内 
存 (用 哈 希 表 实现 的 具体 办 法 是 将 每 一 个 Email 地 址 对 应 成 一 个 8 字 节 
的 信息 指纹 ， 然 后 将 这 些 信息 指纹 存 人 哈 希 表 ， 由 于 哈 希 表 的 存储 效率 
一 般 只 有 50%， 因 此 一 个 Email 地 址 需要 占用 16 个 字 节 。 一 亿 个 地 址 大 约 
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要 1.6GB， 即 16 亿 字 节 的 内 存 ) 。 因 此 ， 存 储 几 十 亿 个 邮件 地 址 可 能 需 复 
上 百 GB 的 内 存 。 除 非 是 超级 计算 机 ， 一 般 服务 器 是 无 法 存储 的 。 


今天 ， 我 们 介绍 一 种 称 作 布 隆 过 滤器 的 数学 工具 ， 它 只 需要 蛤 希 表 178 
到 1 /4 的 大 小 就 能 解决 同样 的 问题 。 


布 隆 过 滤器 是 由 伯 顿 : 布 隆 ( Burton Bloom ) 于 1970 年 提出 的 。 它 实际 
上 是 一 个 很 长 的 二 进 制 向 量 和 一 系列 随机 映射 函数 。 我 们 通过 上 面 的 例 
子 来 说 明 其 工作 原理 。 


假定 存储 一 亿 个 电子 邮件 地 址 ， 先 建立 一 个 16 亿 二 进 制 〈 比特 ) ， 即 两 
亿 字 节 的 回 量 ， 然 后 将 这 16 亿 个 二 进 制 位 全 部 清 零 。 对 于 每 一 个 电子 邮 
件 地 址 XxX， 用 8 个 不 同 的 随机 数 产 生 器 (F122,…, Fe) 产生 8 个 信息 指纹 
(fzy…sfe) 。 再 用 一 个 随机 数 产 生 器 G 把 这 8 个 信息 指纹 映射 到 1-16 
亿 中 的 8 个 自然 数 91,92,…,98。 现在 把 这 8 个 位 置 的 二 进 制 全 部 设置 为 1。 
对 这 一 亿 个 电子 邮件 地 址 都 进行 这 样 的 处 理 后 ， 一 个 针对 这 些 电子 邮件 
地 址 的 布 隆 过 滤器 就 建成 了 ， 见 下 图 。 








Te 
001i:001..010,:001. > 
站 ie | 
O012..94... ae 8...1.68 


23-1 布 隆 过 滤器 的 映射 方法 


现在 ， 让 我 们 看 看 如 何 用 布 隆 过 滤器 来 检测 一 个 可 疑 的 电子 邮件 地 址 Y 是 
否 在 黑 名 单 中 。 用 相同 的 8 个 随机 数 产生 器 Pu Fz,.…, Fe) 对 这 个 地 址 产生 
8 个 信息 指纹 st,sz, …,se ， 然 后 将 这 8 个 指纹 对 应 到 布 隆 过 滤器 的 8 个 二 
进 制 位 ,分别 是 ti,t2,...,ts。 如 果 Y 在 黑 名 单 中 ， 显 然 ，t,tz2,.…, te 对 应 的 
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8 个 二 进 制 数 一 定 是 1。 这样 , 再 遇 到 任何 在 黑 名 单 中 的 电子 邮件 地 址 ， 
都 能 准确 地 发 现 。 


布 隆 过 滤器 决 不 会 漏 掉 黑 名 单 中 的 任何 一 个 可 疑 地 址 。 但 是 ， 它 有 一 个 
不 足 之 处 。 也 就 是 它 有 极 小 的 可 能 将 一 个 不 在 黑 名 单 中 的 电子 邮件 地 址 
也 判定 为 在 黑 名 单 中 ， 因 为 有 可 能 某 个 好 的 邮件 地 址 在 布 隆 过 滤器 中 对 
应 的 8 个 位 置 “恰巧 ”被 〈 其 他 地 址 ) 设置 成 1。 好 在 这 种 可 能 性 很 小 。 
我 们 把 它 称 为 误 识别 率 。 在 上 面 的 例子 中 , 误 识 别 率 在 万 分 之 一 以 下 。 
误 识别 的 理论 分 析 会 在 延伸 阅读 中 介绍 。 


布 隆 过 滤器 的 好 处 在 于 快速 、 省 空间 ， 但 是 有 一 定 的 误 识 别 率 。 常 见 的 
补救 办 法 是 再 建立 一 个 小 的 白 名 单 ， 存 储 那 些 可 能 被 误 判 的 邮件 地 址 。 


2 延伸 阅读 : 布 隆 过 滤器 的 误 识别 问题 
读者 背景 知识 : 概率 论 。 


上 一 节 中 提 到 ， 布 隆 过 滤器 的 一 个 不 足 之 处 就 是 它 可 能 把 不 在 集合 中 的 
元 素 错 判 成 集合 中 的 元 素 , 这 在 检验 上 被 称 为 “ 假 阳 性 ”。 这 个 概率 很 小 ， 
但 是 究竟 有 多 小 ， 是 否 可 以 忽略 。 


估算 假 阳性 的 概率 并 不 难 。 假 定 布 隆 过 洪 器 有 n 比 特 ， 里 面 有 n 个 元 素 ， 
每 个 元 素 对 应 个 信息 指纹 的 哈 希 函 数 ， 当 然 这 比特 里 有 些 是 1， 有 些 
是 0。 先 来 看 看 某 个 比特 为 零 的 概率 。 比 如 ， 在 这 个 布 隆 过 滤器 中 插 人 一 
个 元 索 ， 它 的 第 一 个 哈 希 男 数 会 把 过 滤器 中 的 某 个 比特 置 成 1， 因 此, 任 
何 一 个 比特 被 置 成 1 的 概率 是 1/m ， 它 依然 是 0 的 概率 则 是 1- 二 。 


对 于 过 滤器 中 一 个 特定 的 位 置 ， 如 果 这 个 元 素 的 K 个 哈 希 函数 都 没有 把 它 
不 
设置 成 1， 其 概率 是 (1 - -) 。 如 果 过 滤器 中 插 人 的 第 二 个 元 素 ， 某 个 特 


元 
Kk 
定 的 位 置 依然 没有 被 设置 成 1， 其 概率 为 (1 一 工 ) 。 如 果 揪 入 了 nn 个 元 
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KT 
素 还 没有 把 某 个 位 置 设置 成 1， 其 概率 是 (1 - ) 。 反 过 来 ， 一 个 比特 


1 
ne 
在 桥 入 了 n 个 元 察 后 ,被 置 成 1 的 概率 则 是 1 (1 ~- 上) 。 

现在 假定 这 nn 个 元 素 都 放 到 布 隆 过 滤器 中 了 ， 新 来 一 个 不 在 集合 中 的 元 
素 ， 由 于 它 的 信息 指纹 的 哈 希 函数 都 是 随机 的 ， 因 此 ， 它 的 第 一 个 哈 希 
函数 正好 命中 某 个 值 为 1 的 比特 的 概率 就 是 上 述 概率 。 一 个 不 在 集合 中 
的 元 素 被 误 识别 为 在 集合 中 ， 需 要 所 有 的 险 希 函数 对 应 的 比特 值 均 为 1， 
其 概率 为 


(3 引 ) ~G-: 公 (3 
化 简 后 为 


7 
Cin 2) 


(Zn2)n 
p = (1 (23.2 ) 


如 果 半 比较 大 ， 可 以 近似 为 


(1 — e-kn+osyGn-DJE a (1 — 0-H (23.3 ) 


假定 一 个 元 素 用 16 比特 , 上 = 8， 那 么 假 阳 性 的 概率 是 万 分 之 五 。 在 大 
部 分 应 用 中 是 可 以 忍受 的 。 下 表 是 不 同 的 m /rn 比例 ， 以 及 天 情况 下 的 假 
阳性 概率 (下 表 由 原 麦 过 偿 威 斯 康 星 大 学 曹 培 (Pei Cao ) 教授 提供 ， 她 
目前 在 Facebook 任职 ) 。 


表 23.1 不 同 m/n 和 天 情况 下 ， 布 隆 过 滤器 的 误 识 别 概率 
( 数据 来 源 ; http://pages.cs.wisc.edu/~cao/papers/summary-cache/node8.html) 


一 一 -一 一 一 一 一- -一 - 一 -一 一 一 … 一 一 一 :一 :一 一 -一 -一 一 王 一 : 一 :一 一 一 一 一 一 -一 一 一 :一 一 -一 :一 一 一 一 … 一 -一 :一 一 一 天-…-… 一 一 一 一 -一 一 一 一 一 一 :一 一 -一 -… 一 一 一 … 一 一 …… 一 -一 一 -' 一 一 -…-- 


2.08 0.283 0.237 0.253 


3.46 0.181 0.109 0.092 0.092 0.101 


2 

3 

4 2.77 0.221 0.155 0.147 0.160 

5 

6 41I6 0154 00804 0.0609 0.0561 0.0578 0.0638 
7 


4.85 0.133 0.0618 0.0423 0.0359 0.0347 0.0364 


11 
12 
13 
14 
15 
16 
17 
18 
19 
20 
21 
22 


24 
25 
26 
27 
28 
29 
30 
31 
32 


3 


小 结 


0.00906 
0.00825 
0.00755 
0.00694 
0.00639 
0.00591 
0.00548 
0.0051 
0.00475 
0.00444 
0.00416 
0.0039 
0.00367 


0.000949 
0.000862 
0.000785 
0.000717 


0.00108 
0.000905 
0.000764 
0.000649 
0.000555 
0.000478 
0.000413 
0.000359 
0.000314 
0.000276 
0,.000243 
0.000215 
0.000191 


9.96e-05 
8.53e~05 
7.33e-05 
6.33e-05 
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0.000236 
0.000185 
0.000147 
0.000117 
9.44e-05 
7.66e-05 
6.26e-05 
5.15e-05 
和 .26e-05 
3.55e-05 
2.97e-05 
2.5e-05 


0.000702 
0.000499 
0.00036 
0.000264 
0.000196 
0.000147 
0.000112 
8.56e-05 
6.63e-05 
5.18e-05 
4.08e-05 
3.24e-05 
2.59e-05 
2.09e-05 
1.69e-05 
1.38e-05 
1.13e-05 


0.0145 
0.00846 
0.00509 
0.00314 
0.00199 
0.00129 

0.000852 
0.000574 
0.000394 
0.000275 
0.000194 

0.00014 
0.000101 
7.46e-05 
5.55e-05 
4.17e-05 
3.16e-05 
2.42e-05 
1.87e-05 
1.46e-05 
1.14e-05 
9.01e-06 
7.16e-06 
5.73e-06 


布 隆 过 滤器 背后 的 数学 原理 在 于 两 个 完全 随机 的 数字 冲突 的 概率 很 小 ， 
因此 ， 可 以 在 很 小 的 误 识 别 率 条 件 下 ， 用 很 少 的 空间 存储 大 量 信息 。 常 
见 的 补救 误 识别 的 办 法 是 再 在 建立 一 个 小 的 白 名 单 ， 存 储 那 些 可 能 被 别 
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误 判 的 信息 。 由 于 布 隆 过 滤器 中 只 有 简单 的 算术 运算 , 因此 它 的 速度 很 快 ， 
使 用 方便 。 


第 24 草 马尔 可 天 链 的 扩展 一 贝 叶 
斯 网 络 


1 员 叶 斯 网 络 


前 面 的 章节 中 多 次 提 到 马尔 可 夫 链 ( Markov Chain ) ， 它 描述 了 一 种 状 
态 序 列 ， 其 每 个 状态 值 取决 于 前 面 有 限 个 状态 。 这 种 模型 ， 对 很 多 实际 
问题 来 讲 是 一 种 很 粗略 的 简化 。 在 现实 生活 中 ， 很 多 事物 相互 的 关系 并 
不 能 用 一 条 链 来 串 起 来 , 它们 之 间 的 关系 可 能 是 交叉 的 、 错 综 复杂 的 。 
比如 在 下 图 中 可 以 看 到 ， 心 血管 疾病 和 它 的 成 因 之 间 的 关系 是 错综复杂 
的 。 显 然 无 法 用 一 个 链 来 表示 (图 24.1 ) 。 


心血 管 疾病 


2 饱和 脂肪 
i 


图 24.1 描述 心血 管 疾病 和 成 因 的 一 个 简单 的 贝 叶 斯 网 络 
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可 以 把 上 述 的 有 向 图 看 成 一 个 网 络 ， 其 中 每 个 圆圈 表示 一 个 状态 。 状 态 
之 间 的 连 线 表示 它们 的 因果 关系 。 比 如 从 心血 管 疾病 出 发 到 吸烟 的 弧 线 
表示 心血 管 疾病 可 能 和 吸烟 有 关 。 假 定 在 这 个 图 中 马尔 可 夫 假 设 成 立 ， 
即 每 一 个 状态 只 和 与 它 直 接 相连 的 状态 有 关 ， 而 和 它 间 接 相 连 的 状态 没 
有 直接 关系 ,那么 它 就 是 贝 叶 斯 网 络 。 不 过 要 注意 ， 两 个 状态 4 和 8 之 间 
没有 直接 的 有 向 弧 链 接 ， 只 说 明 它 们 之 间 没 有 直接 的 因果 关系 。 但 这 并 
不 表明 状态 4 不 会 通过 其 他 状态 间接 地 影响 状态 8B， 只 要 在 图 中 有 一 条 从 
A 到 8 的 路 径 ， 这 两 个 状态 就 还 是 有 间接 的 相关 性 的 。 所 有 这 些 ( 因果 ) 
关系 , 都 可 以 有 一 个 量化 的 可 信和 度 ( Belief ) , 用 一 个 概率 描述 。 也 就 是 说 ， 
贝 叶 斯 网 络 的 弧 上 可 以 有 附加 的 权重 。 马 尔 可 夫 假 设 保证 了 贝 叶 斯 网 络 
便于 计算 。 我 们 可 以 通过 这 样 一 张 网 络 估计 出 一 个 人 患 心血 管 疾病 的 可 
能 性 。 


在 网 络 中 每 个 节点 概率 的 计算 ， 都 可 以 用 贝 叶 斯 公式 来 进行 ， 贝 叶 斯 网 
络 因 此 而 得 名 。 由 于 网 络 的 每 个 弧 都 有 一 个 可 信和 度 ， 贝 叶 斯 网 络 也 被 称 
作 信 念 网 络 ( Belief Networks ) 。 在 上 面 的 例子 中 , 我 们 做 一 个 简化 ， 
假定 只 有 三 个 状态 “心血 管 疾病 ”、“ 高 血脂 ”和 “家 族 病史 ”。 用 这 
个 简化 的 例子 来 说 明 这 个 网 络 中 的 一 些 概率 是 如 何 通 过 贝 叶 斯 公式 计算 
出 来 的 。 为 了 简单 起 见 ， 假 定 每 个 状态 取 值 只 有 “有 、 无 ”两 种 ， 如 图 
24.2 所 示 。 图 中 的 三 个 表 各 自 代表 了 每 个 状态 和 组 合 状态 不 同 取 值 时 的 
条 件 概 率 ， 比 如 左上 角 的 表 说 明 ， 如 果 有 家 族 病史 时 ， 高 血脂 的 可 能 性 
是 0.4， 如 果 无 家 族 病 史 ， 这 个 可 能 性 只 有 0.1。 
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心血 管 疾病 \ 家 族 病史 ， 高 血脂 有 无 高 血 第 \ 家 族 病 史 有 无 
有 ， 有 09 01 有 04 0.6 
有 , 无 04 0.6 无 01 0.9 
有 ， 有 04 0.6 
有 , 无 01 0.9 


心血 管 疾 病 









24.2 一 个 简化 的 贝 叶 斯 网 络 


如 果 要 计算 “家 族 病史 ”高 血脂 ”和 “心血 管 疾病 ”三 者 的 联合 概率 分 布 ， 
可 以 利用 贝 叶 斯 公式 ， 


P (家 族 病 史 , 高 血脂 , 心血 管 疾病 ) =P (心血 管 疾病 | 家 族 病史 ， 
高 血脂 ) x P (高 血脂 | 家 族 病史 ) x (家 族 病 史 ) (24.1) 


只 要 代 人 表 中 的 数值 就 能 计算 出 概率 。 


再 比如 ， 如 果 问 心血 管 疾病 有 和 多 大 的 可 能 是 由 家 族 病 史 引 起 的 ， 也 可 以 
通过 这 个 贝 叶 斯 网 络 计算 出 来 。 


P (有 家 族 病 史 | 有 心脏 病 ) = P (有 家 族 病 史 ， 有 心脏 病 ) / 
P (有 心脏 病 ) (24.2 ) 


其 中 : 


P (有 家 族 病 史 ， 有 心脏 病 ) = (有 家 族 病 史 ， 有 心脏 病 ， 无 高 
血脂 ) + P (有 家 族 病 史 ， 有 心脏 病 ， 有 高 血脂 ) ( 24.3 ) 


P (有 心脏 病 ) = P (有 家 族 病史 ， 有 心脏 病 ， 无 高 血脂 )+P (有 
家 族 病史 ， 有 心脏 病 ， 有 高 血脂 ) + P (无 家 族 病史 ， 有 心脏 病 ， 
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无 高 血脂 ) + P (无 家 族 病史 ， 有 心脏 病 ， 有 高 血脂 ) (24.4) 


上 面 两 个 式 子 中 的 每 一 项 都 可 以 通过 (24.1) 计算 出 来 ， 代 人 图 24.2 中 
的 值 ， 这 个 概率 为 : 


P (有 家 族 病 史 ， 有 心脏 病 ) = 0.18 x 0.4 + 0.12x0.4 
= 0.12 


P (有 心脏 病 ) = 0.12 + 0.08 x 0.4 + 0.72 x 0.1 
= 0.12 + 0.144 
= 0.264 


将 结果 代入 (24.2 ) ， 得 到; P ( 有 家 族 病 史 | 有 心脏 病 ) = 45% 


因此 ， 虽然 有 家 族 病史 的 人 只 占 人 口 的 20%, 但 是 他 们 占 了 有 心血 管 疾 
病人 数 的 45%， 发 病 率 远 远 高 于 没有 家 族 病 史 的 人 。 


我 们 在 计算 上 面 的 贝 叶 斯 网 络 中 每 个 状态 的 到 值 时 ， 只 考虑 了 前 面 一 个 
状态 ， 这 一 点 和 马尔 可 夫 链 相同 。 但 是 ， 贝 叶 斯 网 络 的 拓扑 结构 比 马尔 
可 夫 链 灵活 ， 它 不 受 马 尔 可 夫 链 的 链 状 结构 的 约束 ， 因 此 可 以 更 准确 地 
描述 事件 之 闻 的 相关 性 。 可 以 讲 ， 马 尔 可 夫 链 是 贝 叶 斯 网 络 的 特例 ， 而 
由 时 斯 网 络 是 马尔 可 夫 链 的 推广 。 


使 用 贝 叶 斯 网 络 必须 先 确定 这 个 网 络 的 拓扑 结构 ， 然 后 还 要 知道 各 个 状 
态 之 间 相 关 的 概率 ， 也 就 是 图 24.2 中 的 那些 表 。 得 到 拓扑 结构 和 这 些 参 
数 的 过 程 分 别 叫 做 结构 训练 和 参数 训练 ， 统 称 训练 。 和 训练 马尔 可 夫 模 
型 一 样 , 训练 贝 叶 斯 网 络 要 用 一 些 已 知 的 数据 。 比 如 训练 上 面 的 网 络 ， 
需要 知道 一 些 心血 管 疾病 和 吸烟 、 家 族 病 史 等 有 关 的 情况 。 相 比 马尔 可 
夫 链 ， 贝 叶 斯 网 络 的 训练 比较 复杂 ， 从 理论 上 讲 ， 它 是 一 个 NP 完备 问 
题 (NP-Complete ) ,也 就 是 说 , 对 于 现在 的 计算 机 是 不 可 计算 的 。 但 是 ， 
对 于 某 些 应 用 ， 这 个 训练 过 程 可 以 简化 ， 并 在 计算 机 上 实现 。 
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值得 一 提 的 是 IBM 华 生 实 验 室 的 欧 威 格 博士 (Geoffrey Zweig ) 和 西 雅 
图 华盛顿 大 学 的 比尔 默 《Jeff Bilmer ) 教授 完成 了 一 个 通用 的 贝 叶 斯 网 络 
的 工具 包 ， 提 供给 对 贝 叶 斯 网 络 有 兴趣 的 研究 者 。 


贝 叶 斯 网 络 在 图 像 处 理 、 文 字 人 处理、 支持 决策 等 方面 有 很 多 应 用 。 在 文 
字 处 理 方 面 ,请 义 相近 的 词 之 间 的 关系 可 以 用 一 个 贝 叶 斯 网 络 来 描述 。 
我 们 利用 贝 叶 斯 网 络 ， 可 以 找 出 近义词 和 相关 的 词 ， 因 而 在 Google 搜索 
和 Google 广告 中 都 有 直接 的 应 用 。 


2 贝 叶 斯 网 络 在 词 分 类 中 的 应 用 


可 以 用 基于 统计 的 模型 分 析 文 本 ， 从 中 抽取 概念 ， 分 析 主 题 。 不 妨 把 这 
样 的 模型 称 为 主题 模型 (Topic Model ) 。 前 面 章节 中 提 到 的 从 一 篇 文 
章 里 得 到 它 的 特征 向 量 ,然后 把 这 个 特征 向 量 通 过 余弦 相似 性 ( 距离 ) 
对 应 到 一 个 主题 的 特征 向 量 ， 便 是 统计 主题 模型 的 一 种 。 这 里 介绍 通过 
贝 叶 斯 网 络 建立 的 另 一 种 模型 ，Google 的 Rephil。 由 于 不 便 透 露 太 多 
Rephil 的 细节 ， 因 此 在 这 里 我 改 用 自己 的 语言 讲述 它 的 原理 ， 听 过 这 个 
主题 报告 或 者 读 过 报告 幻灯 片 的 读者 可 能 会 发 现 我 的 讲法 略 有 不 同 ,但 
原理 是 相同 的 。 


在 介绍 Rephil 以 前 ,我 们 先 来 回顾 一 下 文本 分 类 。 假 如 我 们 有 一 亿 篇 文本 ， 
我 们 或 者 使 用 (文本 和 关键 词 ) 关联 矩阵 的 奇异 值 分 解 ， 或 者 使 用 余弦 
距离 的 集 类 ， 可 以 将 它们 分 成 一 万 类 ， 当 然 这 个 类 别 的 数量 可 以 由 工程 
人 员 自 己 定 。 对 于 一 篇 文章 ， 可 以 把 它 归 到 一 类 或 者 若干 类 中 。 同 一 类 
的 文章 ， 共 享 很 多 关键 词 。 罕 于 关键 词 是 怎么 产生 的 , 可 以 有 各 种 办 法 ， 
比如 人 工 挑 选 。 但 是 大 规模 数据 处 理 需 要 用 自动 的 办 法 。 这 样 ， 不 同 的 
文章 通过 关键 词 建立 了 一 种 关系 ,这 种 关系 表明 一 些 文章 属于 同一 类 或 
者 不 属于 同一 类 。 


如 果 把 文本 和 关键 词 的 关联 矩阵 转 90 度 ， 进 行 奇异 值 分 解 ， 或 者 对 每 个 
词 以 文本 作为 维度， 建立 一 个 向 量 ， 再 进行 癌 量 的 聚 类 ， 那 么 得 到 的 是 对 
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词 的 一 个 分 类 而 不 是 对 文本 的 分 类 。 分 出 来 的 每 一 类 我 们 称 为 一 个 概念 。 


显然 , 一 个 概念 可 以 包含 多 个 词 , 一 个 词 也 可 以 属于 多 个 概念 。 类 似 地 ， 
一 篇 文章 可 以 对 应 多 个 概念 ， 而 一 个 概念 也 对 应 多 篇 文章 。 现 在 可 以 用 页 
叶 斯 网 络 建立 一 个 文章 、 概 念 和 关键 词 之 间 的 联系 : 





图 24.3 ”描述 文章 ( D ) 、 主 题 (T ) 和 关键 河 ( W ) 的 贝 叶 斯 网 络 


在 图 24.3 中 ， 文 章 和 关键 词 本 身 有 直接 的 关联 ， 它 们 两 者 都 还 和 概念 有 
直接 关联 ， 同 时 它们 通过 主题 还 有 间接 的 关联 。 就 如 同 24.1 节 中 的 那个 
例子 ， 可 以 找到 心血 管 疾病 和 家 族 病史 之 间 的 关系 一 样 ， 也 可 以 通过 上 
面 这 个 网 络 找到 每 个 概念 和 每 个 词 之 间 的 相关 性 ， 以 及 词 和 词 之 间 的 相 
关 性 。 只 是 这 个 相关 性 未 必 是 条 件 概 率 。 


2002 年 ，Google 的 工程 师 们 利用 贝 叶 期 网络， 建立 了 文章 、 概 念 和 关键 
词 的 联系 ,将 上 百 万 关键 词 聚 合成 若干 概念 的 聚 类 ， 称 为 Phil Cluster。 
这 项 工作 最 初 甚至 没有 考虑 应 用 背景 ， 只 是 党 得 概念 的 提取 将 来 对 信息 
处 理会 有 帮助 。 而 最 早 的 应 用 是 广告 的 扩展 匹配 ， 这 是 Phil Cluster 完成 
后 几 个 月 里 的 事情 。 由 于 早期 只 考虑 了 关键 词 和 文本 的 关系 ， 对 关键 词 
上 下 文 关 系 考虑 较 少 ， 因 此 这 个 概念 的 紊 类 过 于 广泛 ， 比 如 计算 机 和 上 股 
票 可 能 被 聚 在 一 类 中 ， 汽 车 和 美国 总 统 的 名 字 育 在 一 起 。 这 严重 影响 了 
Google 各 个 项 目 组 对 Phil Cluster 的 接受 程度 。2004 年 ，Google 开始 章 
构 Phil Cluster， 这 次 采用 了 比 原先 多 几 百 倍 的 数据 ， 考 虑 的 关键 词 的 相 
似 性 也 从 原来 的 在 文本 中 辐 现 扩展 为 在 上 下 文中 同 现 ， 辣 时 支持 不 同 颗 
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粒 的 概念 。 因 为 是 重 构 ， 所 以 项 目的 名 称 改 为 Rephil。Rephil 聚合 了 大 
约 1 200 万 个 词 ， 将 它们 聚合 到 上 百 万 的 概念 中 。 一 个 概念 一 般 有 十 几 个 
到 上 百 个 词 。 由 于 Rephil 的 质量 比 以 前 有 很 大 提高 ， 因 此 从 广告 到 搜索 
都 用 到 了 它 的 成 果 。 久 而 久之 ， 就 没有 多 少 入 知道 Phil 了 。Rephil 的 网 
络 结构 比 原先 的 Phil 复杂 很 多 ,但 是 原理 类 似 。 


3 延伸 阅读 : 贝 叶 斯 网 络 的 训练 
读者 背景 知识 : 概率 论 。 


使 用 贝 叶 斯 网 络 首 先 要 确定 它 的 结构 。 对 于 简单 的 问题 ， 比 如 上 面 那个 
心血 管 疾 病 的 例子 ， 由 专家 直接 给 出 它 的 结构 即 可 。 但 是 ， 稍 微 复杂 一 
上 所 的 问题 已 经 无 法 人 工 给 出 结构 了 ,和 需要 通过 机 器 学 习 得 到 。 


优化 的 贝 叶 斯 网 络 结构 要 保证 它 产生 的 序列 ( 比如 “家 族 病史 一 高 血脂 
一 心血 管 疾病 ”就 是 一 个 序列 ) 从 头 走 到 尾 的 可 能 性 最 大 ， 如 果 是 使 用 
概率 做 度量 , 那 就 是 后 验 概率 最 大 。 当 然 , 产生 一 个 序列 可 以 有 多 条 路 径 ， 
从 理论 上 讲 , 需要 完备 的 搜索 ( Exhaustive Search ) ， 即 考虑 每 一 条 路 径 ， 
才能 得 到 全 局 最 优 。 但 是 这 样 的 计算 复杂 度 是 NP-Hard( 详 见 附录 一 ) ， 
因此 一 般 采 用 贪 焚 的 算法 (Greedy Algorithm ) ， 也 就 是 在 每 一 步 时 ， 

语 奢 箭头 的 方向 寻找 有 限 步 。 当 然 这 样 会 导致 陷入 局 部 最 优 ， 并 且 最 
终 远 离 全 局 最 优 解 。 一 个 防止 显然 局 部 最 优 的 方法 ， 就 是 采用 蒙特 卡 罗 
( Monte Carlo ) 的 方法 ， 用 许多 随机 数 在 贝 叶 斯 网 络 中 试 一 试 ， 看 看 是 
否 显 然 局 部 最 优 。 这 个 方法 的 计算 量 比较 大 。 最 近 ， 新 的 方法 是 利用 信 
息 论 ， 计 算 节 点 之 间 两 两 的 互信 息 ， 然 后 只 保留 互信 息 较 大 的 节点 直接 
的 连接 ,然后 再 对 简化 了 的 网 络 进行 完备 的 搜索 , 找到 全 局 优化 的 结构 。 


确定 贝 叶 斯 网 络 的 结构 后 ， 就 要 确定 这 些 节 点 之 间 的 弧 的 权重 了 ， 假 定 
这 些 权 重用 条 件 概 率 来 度量 。 为 此 ， 需 要 一 些 训练 数据 ， 我 们 需要 做 的 
就 是 优化 贝 叶 斯 网 络 的 参数 ,使 得 观察 到 的 这 些 数据 的 概率 ( 即 后 验 概率 ) 
P(D19) 达到 最 大 。 这 个 过 程 就 是 前 面 介绍 过 的 EM 过 程 (Expectation- 
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Maximization Process ) 。 


在 计算 后 验 概率 时 ， 计算 的 是 条 件 X 和 结果 Y 之 间 的 联合 概率 P(X,Y)。 
我 们 的 训练 数据 会 提供 一 些 P(X,7) 之 间 的 限制 条 件 ， 而 训练 出 来 的 模型 
要 满足 这 些 限制 条 件 。 回 顾 我 们 在 “最 大 信 模型 ”一 章 中 介绍 的 内 容 ， 
这 个 模型 应 该 是 满足 给 定 条 件 的 最 大 箭 模型 。 因 此， 涉及 到 最 大 灶 模 型 
的 训练 方法 在 这 里 都 可 以 使 用 。 


最 后 ,需要 指明 结构 的 训练 和 参数 的 训练 通常 是 交 蔡 进行 的 。 也 就 是 先 
优化 参数 ， 再 优化 结构 ， 然 后 再 次 优化 参数 ， 直 至 得 到 收敛 或 者 误差 足 
够 小 的 模型 。 


对 贝 叶 斯 网 络 有 特别 兴趣 的 读者 ， 可 以 阅读 比尔 默 和 菊 威 格 共 同 发 表 的 
论文 : 


http://ssli.ee.washington.edu/~bilmes/pgs/sort_date.html 


4 小 结 


从 数学 的 层面 讲 ， 贝 叶 斯 网 络 是 一 个 加 权 的 有 向 图 ， 是 马尔 可 夫 链 的 打 
展 。 而 从 认识 论 的 层面 看 : 贝 叶 斯 网 络 克服 了 马尔 可 夫 链 那 种 机 械 的 线 
性 的 约束 ， 它 可 以 把 任何 有 关联 的 事件 统一 到 它 的 框架 下 面 。 因 此 ， 贝 
叶 斯 网 络 有 很 多 应 用 ,除了 我 介绍 的 文本 分 类 和 概念 抽取 外 , 在 生物 统计 、 
图 像 处 理 、 次 策 支 持 系统 和 博弈 论 中 都 有 广泛 应 用 。 贝 叶 斯 网 络 的 摘 述 
非常 简单 易 懂 ， 但 导出 的 模型 却 非 常 复杂 。 


第 25 瘟 条 件 随机 场 和 人 句法 分 析 


条 件 随机 场 是 计算 联合 概率 分 布 的 有 效 模 型 ， 而 句法 分 析 似 乎 是 英文 课 上 
英语 老师 教 的 东西 ， 这 两 者 有 何 联系 呢 ? 我 们 先 从 句法 分 析 的 演变 谈 起 。 


1 句法 分 析 计 算 机 算法 的 演变 


我 们 讲 到 自然 语言 的 句法 分 析 就 是 为 每 个 句子 建立 一 棵 语法 树 。 以 前 受 
形式 语言 学 的 影响 ， 采 用 基于 规则 的 方法 ， 那 么 建 这 棵 语法 树 的 过 程 就 
是 不 断 地 使 用 规则 将 树 的 末端 节点 逐 级 同上 合并 ， 直 到 合并 出 根 节 点 ， 
即 一 个 整 句 。 这 个 方法 是 自 底 向 上 的 ， 当 然 也 可 以 自 顶 向 下 进行 。 不 论 
是 哪 一 种 ， 都 有 一 个 无 法 避免 的 问题 ， 就 是 选择 规则 时 不 可 能 一 次 选 对 。 
如 果 在 某 一 步 一 旦 走 岔 路 了 ， 需 要 回潮 很 多 步 。 因 此 ， 这 两 种 方法 的 计 
算 复 条 度 都 大 得 不 得 了 ， 也 不 可 能 分 析 复 杂 的 句子 。 


上 个 世纪 80 年 代 以 后 ,布朗 大 学 计算 机 系 的 计算 语言 学 家 尤 金 * 查 尼 阿 
克 ( Eugene Charniack ) 统计 出 文法 规则 的 概率 ， 在 选择 文法 规则 时 ， 
坚持 一 个 原则 一 让 被 分 析 的 句子 的 证 法 树 概率 达到 最 大 。 这 个 看 似 非 
常 简单 直接 的 方法 ,使 得 句法 分 析 的 计算 量 一 下 降低 了 很 多 ， 而 准确 性 
却 大 大 提高 。 查 尼 阿 克 无 形 中 在 数学 和 句法 分 析 上 搭建 了 一 个 桥梁 。 而 
搭建 这 个 桥梁 的 第 二 个 人 就 是 马 库 斯 的 学 生 拉 纳 帕 提 。 
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用 马 库 斯 的 男 一 个 高 足 布莱尔 的 话 讲 ， 拉 纳 幅 提 是 绝顶 聪明 的 人 ， 不 过 从 
我 个 人 接触 来 看 ,我 认为 他 更 大 的 长 处 在 于 极 强 的 动手 能 力 。 拉 纳 帕 提 从 
全 新 的 角度 来 看 竺 句法 分 析 问 题 一 ~ 把 句法 分 析 看 成 是 一 个 括 括号 的 过 程 。 


还 是 举 前 面 章节 中 的 那个 很 长 的 句子 为 例 ， 来 说 明 拉 纳 帕 提 的 方法 。 


美联储 主席 本 “， 伯 南 克 昨 天 告诉 媒体 7 000 亿美 元 的 救助 资金 将 借 给 上 百 家 银 行 、 保 险 
公司 和 汽车 公司 。 


我 们 先 对 它 进行 分 词 


美联储 | 主席 | 本 “' 伯 南 克 | 昨天 | 告诉 | 媒体 | 7000 亿 | 美元 | 的 | 救助 | 资金 | 将 
| 借 给 | 上 百 | 家 | 银行 | 、| 保险 公司 | 和 | 汽车 公司 | 


然后 将 这 些 词 从 左 到 右 扫 描 一 遍 ， 用 括号 括 起 来 ， 形 成 词组 : 


(美联储 主席 ) | 本. 伯 南 克 | 昨天 | 告诉 | 媒体 《7 000 亿 美元 ) | 的 (救助 资金 ) 
(将 借 给 ) (上 百 家 ) (银行 、 保险 公司 和 汽车 公司 ) 


然后 , 拉 纳 帕 提 给 每 个 括号 一 个 句子 成 分 ,比如 “美联储 主席 "是 名 词 短 语 。 
接 下 来 ， 继 续 重复 以 上 括 括号 的 过 程 。 


[人 (美联储 主席 ) 本 伯 南 克 ] 昨天 | 告诉 | 媒体 [(7000 亿 美元 ) 的 (救助 资金 ) 
]〈 将 借 给 ) [( 上 百 家 ) (银行 、 保险 公司 和 汽车 公司 ) ] 


直到 整个 句子 都 被 一 个 大 括号 覆盖 。 每 一 个 括号 ， 就 是 句子 的 一 个 成 分 ， 
括号 之 间谍 套 关 系 ， 就 是 不 同 层面 的 句子 成 分 的 构成 关系 。 


拉 纳 帕 提 每 次 从 左 到 右 扫描 句子 的 每 个 词 〈 或 者 句子 成 分 ) 时 ， 只 需要 
判断 是 否 属 于 以 下 三 个 操作 之 一 : 


Al. 是 否 开始 一 个 新 的 左 括 号 ， 比 如 在 “美联储 ”是 新 插 号 的 开始 。 
A2. 是 否 继 续 留 在 这 个 括号 中 ， 比 如 在 “保险 公司 ”的 位 置 ， 是 继续 留 在 括号 中 。 
A3. 是 否 结束 一 个 括号 ， 即 标 上 右 括号 ， 比 如 “资金 ”的 位 置 是 一 个 括号 的 结束 。 
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为 了 判断 是 采用 哪个 操作 ， 拉 纳 帕 提 建 立 了 一 个 统计 模型 P(A |prefix)， 
其 中 4 表示 行动 ， 句 子 前 级 prefix 是 指 句 子 从 开头 到 目前 为 止 所 有 的 词 
和 语法 成 分 。 最 后 ， 拉 纳 帕 提 用 最 大 炉 模 型 实现 了 这 个 模型 。 当 然 ， 拉 
纳 帕 提 还 用 一 个 统计 模型 来 预测 句子 成 分 的 种 类 。 


这 个 方法 速度 非常 快 。 每 次 扫描 ,句子 成 分 的 数量 就 按 一 定 比 例 减少 ， 
因此 ， 扫 描 的 次 数 是 句子 长 度 的 对 数 消 数 ， 很 容 多 证明， 整个 算法 和 名 
子 长 度 成 正比 。 从 算法 复 架 度 的 角度 来 讲 ， 这 个 算法 的 计算 时 间 已 经 是 
最 优 的 了 。 


拉 纳 帕 提 的 方法 讲 起 来 非常 简单 ， 但 是 想到 它 确实 很 了 不 起 。 (可见 好 
方法 在 形式 上 常常 是 简单 的 。) 可 以 说 ,他 是 真正 将 句法 分 析 和 数学 模型 
联系 起 来 的 关键 人 物 。 从 那个 时 候 起 ， 大 部 分 句法 分 析 的 方法 都 从 局 发 
式 搜索 转 到 了 括 括 号 上 。 而 句法 分 析 的 准确 性 很 大 程度 上 取决 于 统计 模 
型 的 好 坏 ， 以 及 从 prefix 提取 的 特征 的 有 效 性 。 前 面 我 们 讲 过 马 库 斯 的 
博士 生 柯 林 斯 的 博士 论文 做 得 非常 出 色 ， 原 因 就 是 他 在 特征 提取 上 做 了 
深入 的 研究 。 


从 上 个 世纪 70 年 代 出 现 了 统计 语言 学 和 统计 语言 模型 ， 到 上 个 世纪 90 
年 代 拉 纳 帕 提 等 人 通过 统计 模型 将 数学 和 句法 分 析 结 合 起 来 ， 科 学 家 们 
对 于 非常 “规矩 ”的 语句 ， 比 如 《华尔街 日 报 》 的 句子 进行 句法 的 分 析 ， 
正确 率 可 以 达到 80% 以 上 ， 基 本 上 达到 了 普通 人 的 水 平 。2000 年 后 ， 随 
大 互联 网 的 普及 ， 读 者 接触 的 内 容 不 再 是 以 专业 人 士 严 谨 的 写作 为 主 ， 
很 多 都 是 网 民 们 随意 创作 的 内 容 。 这 些 “ 写 得 不 是 太 好 ”的 句子 ， 或 者 
有 严重 语法 错误 的 句子 ， 以 往 任 何 文法 分 析 器 ， 包 括 柯 林 斯 做 的 ， 正 确 
率 连 50% 也 达 不 到 。 


所 府 在 很 多 自然 语言 处 理 的 应 用 中 ， 并 不 需要 对 语句 做 深入 的 分 析 ， 只 
要 做 浅 层 的 分 析 ( Shallow Parsing ) ， 比 如 找 出 句子 中 主要 的 词组 以 及 它 
们 之 间 的 关系 即 可 。 于 是 科学 家 研究 的 重点 从 语句 的 深层 分 析 转 到 对 语 
句 的 浅 层 分 析 上 。 到 上 世纪 90 年 代 后 ， 随 着 计算 机 计算 能 力 的 增强 ， 科 
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学 家 们 采用 了 一 种 新 的 数学 模型 工具 一 条 件 随机 场 ， 大 大 提高 了 句子 
浅 层 分 析 的 正确 率 , 正确 率 可 达 95%, 使 得 句法 分 析 得 以 应 用 到 很 多 产品 ， 
比如 机 器 翻译 上 。 


2 条 件 随 机 场 





25.1 在 隐 含 马尔 可 夫 模 型 中 ， 输 出 只 和 状态 有 关 


在 一 个 隐 售 马尔 可 夫 模 型 中 ， 以 xxz zx 表示 观测 值 序列 ， 以 
yuy2.…sYn 表 示 隐 含 的 状态 序列 ， 那 么 x 只 取决 于 产生 它们 的 状态 Yi:， 和 
前 后 的 状态 yi-1，Yir1 都 无 关 。 显 然 在 很 多 应 用 里 观察 值 X: 可 能 和 前 后 的 
状态 都 有 关 ， 如 果 把 和 yi-1，Yi;，yiti 都 考虑 进来 ， 对 应 的 模型 如 下 : 





25.2 一 个 普遍 意义 的 条 件 随 机 场 
这 样 的 模型 就 是 条 件 随机 场 。 


条 件 随 机 场 是 隐 含 马尔 可 夫 模 型 的 一 种 扩展 ， 它 保留 了 隐 售 马尔 可 夫 模 
型 的 一 些 特性 , 比如 在 图 中 的 六 ,yz 等 状态 的 序列 还 是 一 个 马尔 可 夫 链 。 
更 广义 地 讲 ， 条 件 随机 场 是 一 种 特殊 的 概率 图 模型 ( Probabilistic Graph 
Model ) 。 在 这 个 图 中 ， 顶 点 代表 一 个 个 随机 变量 ， 比 如 x 和 癌 ， 顶 点 之 
间 的 绝代 表 它 们 相互 的 依赖 关系 ， 通 常 采 用 一 种 概率 分 布 ， 比 如 P(x1,7) 
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来 描述 。 它 的 特殊 性 在 于 ， 变 量 之 间 要 遵守 马尔 可 夫人 假设， 即 每 个 状态 
的 转移 概率 只 取决 于 相 邻 的 状态 ， 这 一 点 ， 它 和 我 们 前 面 介 绍 的 另 一 种 
概率 图 模型 -一 贝 叶 斯 网 络 相同 。 而 它们 的 不 同 之 处 在 于 ， 条 件 随机 场 是 
无 向 图 ， 而 贝 叶 斯 网 络 是 有 向 图 。 


在 大 部 分 应 用 中 ， 条 件 随 机 场 的 节点 分 为 状态 节点 的 集合 Y 和 观察 变量 节 
点 的 集合 X。 整 个 条 件 随 机 场 的 量化 模型 就 是 这 两 个 集合 的 联合 概率 分 布 
模型 P(X,Y) 


P(X,Y) = P(X Xz, ,Xn V1 ya Vm) ( 25.1) 


由 于 这 个 模型 的 变量 特别 多 ,不 可 能 获得 足够 多 的 数据 来 用 大 数 定 理 直 
按 估计 ， 因 此 只 能 通过 它 的 一 些 边 缘分 布 ( Marginal Distribution ) ， 比 
如 P(x1)，P(y2) ，P(x1,y3) 等 等 来 找 出 一 个 符合 所 有 这 些 条 件 的 概率 分 布 
函数 。 当 然 ， 这 样 的 函数 可 能 不 止 一 个 (通常 如 此 ) 。 根 据 最 大 炉 原则 ， 
我 们 希望 找到 一 个 符合 所 有 边缘 分 布 ， 同 时 使 得 炉 达到 最 大 的 模型 。 前 
面 介 绍 过 ， 这 个 模型 是 指数 函数 。 每 一 个 边缘 分 布 ， 对 应 指数 模型 中 的 
一 个 特征 上 (Feature ) ， 比 如 针对 总 的 边缘 分 布 的 特征 就 是 : 


fiX1 Xa Xp V1 V21 7 = fi(X1) (25.2) 


因为 这 个 特征 表明 它 和 除 六 以 外 的 变量 无 关 。 如 果 茶 个 特征 函数 对 应 一 
些 变量 的 取 值 是 零 ， 说 明 这 些 特征 函数 对 这 些 变量 不 起 作用 。 把 这 些 特 
征 都 应 用 到 模型 中 ， 得 到 如 下 的 公式 : 


efitfit.+fx 


P(x, X23 oo Kn V1 V2 1 Ym) 一 7 ( 25.3 ) 


以 浅 层 句法 分 析 为 例 ， 说 明 这 个 条 件 随 机 场 的 模型 是 如 何 工作 ， 如 何 训 
练 的 。 


假定 和 代表 看 到 的 东西 ， 在 浅 层 分 析 中 ， 它 是 句子 中 的 词 、 每 个 词 的 词 
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性 等 ; 了 代表 要 推导 的 东西 ， 它 是 语法 成 分 ， 比 如 名 词 短语 、 动 词 短 语 、 
时 间 短 语 等 。 以 曾经 举 过 的 最 简单 的 句子 “ 徐 志 摩 喜 欢 林 微 因 ” 为 例 来 
说 明 浅 层 分 析 的 模型 。 这 里 , 观察 到 的 序列 是 徐 志摩 / 名 词 , 喜欢 / 动词 ， 
林徽因 / 名 词 ， 希 望 找到 的 状态 序列 是 “名 词 短 语 ， 动 词 短 语 ”。 我 们 
还 是 用 信道 模型 来 说 明 这 个 分 析 的 过 程 ， 如 图 25.3 所 示 。 


Y = 名 词 短 语 ， 动 词 短语 长 = 徐 志摩 / 名词， 喜欢 / 动词， 林徽因 / 名 词 


P(X,Y) 


25.3 ”句子 文法 分 析 的 通信 模型 


区 到 
en | Ce] em 
图 25.4 “ 徐 志摩 训 欢 林徽因 ”的 分 析 树 


在 图 25.4 所 示 的 分 析 树 中 ， 它 的 特征 是 各 个 节点 、 同 一 层 节 点 顺序 的 组 
合 不同 层 次 节点 的 组 合 , 等 等 。 这 里 , 同一 层 节点 顺序 的 组 合 可 以 是 “ 徐 
志摩 - 喜欢 ”、“ 动 词 - 名 词 ”等 , 不 同 层 次 节点 的 组 合 其 实 是 一 些 子 树 ， 
比如 “名 词 短 语 ” 重 写 (Rewrite ) 成 “名 词 ”， “动词 短语” 重 号 成 “ 动 
词 ， 名 词 短语 ”等 。 在 考虑 一 些 特征 后 ， 可 以 用 下 面 的 公式 计算 这 个 条 
件 随 机 场 的 概率 
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以 徐 志摩 /名 词 ， 况 欢 /动词 ， 林 徽 因 /名 词 ， 名 词 短语 , 动词 短语 ) 


= exp{ 有 ( 徐 志摩 ， 名 词 ) 
+ 帮 ( 宫 欢 ， 动词) 十 户 ( 林 徽 因 ， 名 词 ) 


二 hh( 徐 志摩 ， 名 词 ， 名 词 短 语 ) + fs( 名 词 ， 名 词 短 语 ) ( 25.4 ) 
+ ( 官 欢 ， 动词 ， 林 微 因 ， 名 词 ， 动 词 短 语 ) 

+ 万 (名 词 短 语 ， 动 词 短语 ) + fa( 名 词 短 语 ) 

十 万 (动词 短语 ) 十 fol 动词 ， 名 词 ， 动 词 短 语 )} 


这 里 ， 每 一 个 特征 fA0 的 参数 都 可 以 用 前 面 提 到 的 最 大 炳 模型 的 训练 方法 
得 到 。 


最 早 采用 条 件 随 机 场 对 句子 进行 浅 层 分 析 的 是 宾夕法尼亚 大 学 的 博士 生 
消 飞 (Fei Sha ) 和 他 的 导师 (之 一 ) 皮 耶 尔 。 他 们 继承 了 拉 纳 帕 提 的 方法 ， 
只 做 了 句子 分 析 的 第 一 层 ， 即 从 词 到 词组 的 自动 组 合 。 由 于 改进 了 统计 
模型 ， 因 此 甸子 浅 层 分 析 的 正确 率 高 达 94% 左右 ， 这 在 自然 语言 处 理 中 
是 一 个 很 高 的 水 平 了 。 


2005 年 ,李开复 博士 来 到 Google 后 从 朱 会 灿 和 我 的 手中 接 走 了 中 文 搜索 ， 
我 便 去 领导 开发 为 整个 公司 服务 的 通用 句子 文法 分 析 器 一 Gparser 的 项 
目 ， 其 中 G 代表 Google。 我 们 采用 的 方法 跟 沙 飞 和 皮囊 尔 的 类 似 (当时 
皮 耶 尔 还 没有 到 Google ) 。 不 同 的 是 ， 我 们 不 仅 做 第 一 层 的 分 析 ， 而 且 
可 以 像 拉 纳 帕 提 那样 ， 一 层 层 地 分 析 到 句子 语法 树 的 顶部 。 基 本 的 模型 
依然 是 条 件 随机 场 。 


在 每 一 层 分 析 中 ,我们 建立 了 这 样 一 个 模型 P(X,Y)。 其 中 X 是 句子 
中 的 词 wi,wz,…,wn、 词 性 posi,posz,…,posn、 每 一 层 语法 成 分 的 名 称 
局 , 避 ,hm 等 等 ,Y 是 操作 ( 左 括号 ， 继 续 留 在 括号 中 ， 和 右 插 号 ) 以 
及 新 的 一 层 语法 成 分 的 名 称 。 如 果 展 开 写 ， 就 是 


P(w, Wa .Wn POS1, POS2, ,DOSn, 局 Af, fn, yj ( 25.5 ) 


这 个 看 似 包罗 万 象 的 模型 ， 在 工程 上 有 很 大 的 问题 。 首 先 ， 这 是 一 个 非 
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常 复杂 的 模型 ， 因 此 它 的 训练 是 个 大 问题 。 其 次 ， 各 种 条 件 的 组 合 数 是 
天 文 数字 ， 即 使 有 Google 的 数据 ， 其 中 任何 一 个 组 合 可 能 都 出 现 不 了 几 
次 。 因 此 需要 解决 下 面 两 个 问题 。 


首先 ， 做 一 个 近似 ， 把 限制 条 件 的 组 合 Wis Wz, -…, Wn, POs1, posz, .… ,posn, 
人 ,6 pm 拆 成 很 多 子 集 ， 比 如 最 后 的 两 个 词 wa-t wn ， 最 后 两 个 句子 
成 分 和 -1m 等 等 ， 在 每 一 个 子 集 和 要 预测 的 操作 ( 以 及 更 高 层次 的 语 
法 成 份 名 称 ) 之 间 可 以 找到 可 靠 的 统计 关系 。 


其 次 , 在 训练 数据 中 把 每 一 个 统计 量 足够 的 统计 关系 作为 一 个 限制 条 件 ， 
我 们 的 目标 是 寻找 符合 所 有 这 些 限 制 条 件 的 最 大 炉 模 型 。 


这 样 ， 就 可 以 用 最 大 科 模型 的 方法 ， 得 到 这 个 语法 分 析 器 耳 。 


这 样 得 到 的 语法 分 析 器 ， 对 于 网 页 数据 ,句子 小 层 分 析 的 结果 接近 沙 飞 
论文 对 《华尔街 日 报 》 的 准确 性 , 但 是 可 以 处 理 很 “ 脏 ” 的 网 页 数据 。 
这 个 分 析 器 ， 先 后 被 用 到 Google 的 许多 产品 中 。 


3 小 结 


条 件 随 机 场 是 一 个 非常 灵活 的 用 于 预测 的 统计 模型 。 虽 然 在 本 章 中 我 们 
强调 了 它 在 自然 语言 处 理 ， 特 别 是 在 句子 分 析 中 的 应 用 ， 但 是 它 的 应 用 
领域 远 远 不 止 这 些 。 它 在 模式 识别 、 机 器 学 习 和 生物 统计 中 都 有 很 成 功 
的 应 用 。 


和 最 大 炉 模 型 一 样 ， 条 件 随机 场 的 形式 简单 ， 但 是 实现 复杂 ， 所 幸 的 是 
现在 有 不 少 开源 的 软件 可 供 使 用 ， 对 于 一 般 的 工程 人 员 应 该 是 足够 了 。 


第 26 章 维特 比 和 他 的 维特 比 算法 


说 起 安德鲁 ' 维特 比 (Andrew Viterbi ) ， 不 是 通信 行业 的 人 可 能 知道 他 
的 并 不 和 多， 虽然 很 多 通信 行业 的 从 业者 大 多 知道 以 他 的 名 字 命 名 的 维特 
比 算法 (Viterbi Algorithm ) 。 维 特 比 算法 是 现代 数字 通信 中 使 用 最 频繁 
的 算法 ， 同 时 也 是 很 多 自然 语言 处 理 的 解码 算法 。 可 以 这 不 硅 张 地 讲 ， 
维特 比 是 对 我 们 今天 的 生活 影响 力 最 大 的 科学 家 之 一 ， 因 为 今天 基于 
CDMA 的 3G 移动 通信 标准 主要 就 是 他 和 欧文 * 雅克 布 斯 (Irwin Mark 
Jacobs ) 创办 的 高 通 公 司 ( Qualcomm ) 制定 的 。 


1 维特 比 算 法 


我 第 一 次 听 到 维特 比 这 个 名 字 还 是 1986 年 学 习 图 论 的 维特 比 算法 时 了 解 
到 的 ， 那 一 年 他 正在 和 雅克 布 斯 博士 刚刚 创立 起 他 们 的 第 二 家 公司 -一 
高 通 公 司 (1985 年 注册 ) 。 截 至 那 时 ,世界 对 他 的 了 解 还 仅仅 在 学 术 界 ， 
具体 来 说 是 通信 界 和 计算 机 算法 领域 。 我 第 一 次 使 用 这 个 算法 是 1991 年 
从 事 请 音 识 别 研究 的 时 候 ， 那 一 年 高 通 公 司 已 经 提出 和 完善 了 今天 3G 通 
信 的 基础 -一 CDMA 的 各 项 协议 。 而 1997 年 夏天 ， 我 在 约 得， 霍 普 金 
斯 大 学 第 一 次 见 到 维特 比 博 士 时 ， 他 已 经 是 名 满 天 下 的 通信 工业 界 巨 子 
了 。 那 年 他 作为 CLSP 的 顾问 来 参加 年 会 ， 听 我 们 介绍 在 CLSP 的 工作 。 

他 最 关心 的 是 语音 识别 的 商业 前 景 ， 今 天 他 可 以 看 到 了 。 
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26.1 科学 家 和 商业 巨子 维特 比 


维特 比 博士 是 美 籍 意大利 犹太 移民 ， 他 原名 叫 Andrea Viterbi， 但 是 
Andrea 这 个 名 字 在 英语 里 是 个 女孩 子 的 名 字 ， 因 此 他 把 自己 的 名 字 改 
成 安德鲁 (Andrew ) 。 从 他 在 麻 省 理工 学 院 毕 业 到 他 33 岁 以 前 ， 维 特 
比 的 职业 生涯 完全 局 限 在 学 术 界 。 他 先后 在 著名 的 国防 工业 公司 雷神 
( Raytheon ) 、 美 国 著名 的 喷气 推进 实验 室 (JPL ) 担任 工程 师 ， 同 时 在 
南 加 州 大 学 ( University of Southern California ) 完成 了 博士 学 位 。 之 后 
在 加 州 大 学 ( 洛杉矶 和 圣地 亚 哥 两 个 分 校 ) 担任 教 职 ， 从 事 刚 刚 兴 起 的 
学 科 一 数字 通信 的 研究 ， 几 年 后 的 1967 年 ， 他 发 明了 维特 比 算法 。 


言 归 正 传 ， 现 在 让 我 们 看 看 作为 科学 家 的 维特 比 得 以 成 名 的 算法 。 维 特 比 
算法 是 一 个 特殊 但 应 用 最 广 的 动态 规划 算法 〈 见 前 面相 应 的 章节 ) 。 利 用 
动态 规划 ， 可 以 解决 任何 一 个 图 中 的 最 短路 径 问 题 。 而 维特 比 算法 是 针对 
一 个 特殊 的 图 -一 篇 管 网 络 的 有 向 图 (Lattice ) 的 最 短路 径 问题 而 提出 的 。 
它 之 所 以 重要 ， 是 因为 凡是 使 用 隐 含 马尔 可 夫 模 型 描述 的 问题 都 可 以 用 它 
来 解码 ， 包 括 今天 的 数字 通信 、 语 音 识 别 、 机 器 翻译 、 拼 音 转 汉字 、 分 词 
等 。 下 面 还 是 拿 大 家 用 得 最 多 的 输入 法 拼音 转 汉 字 来 说 明 。 


假定 用 户 ( 盲 打 时 ) 输 入 的 拼音 是 思 ,yz,…,w ,对 应 的 汉字 是 Xi Xz,.…,Xn( 虽 
然 真 正 的 输入 法 产品 都 是 以 词 作 为 输入 单位 的 ， 但 是 为 了 便于 说 明 问 题 简 
单 起 见 ， 以 字 为 单位 来 解释 维特 比 算法 ) ， 那 么 根据 前 面 介绍 的 工具 : 
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Xl X22, | XN =ArgMax P(X1, xX», 4 LR 了 2 了 N) 
其 
N 


= ArgMax [ [POIx) P(xilxi-1) (26.1) 


输入 的 (可 见 ) 序列 为 yi,yz,…,yYw， 而 产生 它们 的 隐 含 序列 是 Xx, Xz,.…, Xn 
可 以 用 下 图 描述 这 样 一 个 过 程 : 


26.2 ”和 运用 维特 比 算法 的 隐 合 马尔 可 夫 模 型 





这 是 一 个 没有 状态 跳跃 , 也 没有 状态 目 环 的 相对 简单 的 隐 含 马尔 可 夫 链 。 
P(xi|xi-1) 是 状态 之 间 的 转移 概率 , PGi]xi) 是 每 个 状态 的 产生 概率 。 现 在 ， 
这 个 马尔 可 夫 链 的 每 个 状态 的 输出 是 固定 的 ， 但 是 每 个 状态 的 值 可 以 变 
化 。 比 如 输出 读音 “zhong” 的 字 可 以 是 “中 ”、“ 种 ”等 多 个 字 。 我 们 
不 妨 抽 象 一 点 ， 用 符号 xij 表 示 状 态 xi 的 第 j 个 可 能 的 值 。 如 果 把 每 个 状 
态 按照 不 同 的 值 展 开 ， 就 得 到 下 面 这 个 篇 多 网 络 ( Lattice ) : 





26.3 ”篇 秽 网 络 
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在 上 图 中 , 每 个 状态 有 3 个 或 4 个 值 ， 当 然 实际 中 它们 可 以 有 任意 个 值 。 


那么 从 第 一 个 状态 到 最 后 一 个 状态 的 任何 一 条 路 径 (path ) 都 可 能 产生 
我 们 观察 到 的 输出 序列 Y。 当 然 ， 这 些 路 径 的 可 能 性 不 一 样 ， 而 我 们 要 做 
的 就 是 找到 最 可 能 的 这 条 路 径 。 对 于 每 一 条 给 定 的 路 径 ， 可 以 使 用 公式 
( 26.1 ) 计算 出 它 的 可 能 性 ， 这 不 是 件 困难 的 事情 。 但 麻烦 的 是 这 样 的 路 
径 组 合 数 非常 多 ， 它 使 得 序列 状态 数 的 增长 呈 指 数 爆 炸 式 。 汉 语 中 每 个 
无 声调 的 拼音 对 应 13 个 左右 的 国标 汉字 ， 假 定 句 长 为 10 个 字 ， 那 么 这 
个 组 合 数 为 13"~5 x 10“。 假 定 计算 每 条 路 径 概 率 需 要 20 次 乘法 (或 者 
加 法 ， 如 果 程 序 设计 者 足够 聪明 的 话 ) ， 就 是 10” 次 计算 。 而 今天 的 微 
机 处 理 器 每 秒 大 约 能 计算 10” 次， 也 需要 大 约 一 天 时 间 。 而 在 通信 或 语 
音 识 别 中 , 每 说 一 句 话 的 状态 数 是 成 千 上 万 ,上面 的 穷 举 法 显然 不 合适 。 
因此 ， 需 要 一 个 最 好 能 和 状态 数目 成 正比 的 算法 。 而 这 个 算法 是 维特 比 
在 1967 年 首次 提出 的 ， 因 此 就 被 命名 为 维特 比 算法 。 


维特 比 算法 的 基础 可 以 概括 成 下 面 三 点 : 


1， 如 果 概 率 最 大 的 路 径 忆 (或 者 说 最 短路 径 ) 经 过 茶 个 点 ， 比 如 图 
中 的 xzz， 那 么 这 条 路 径 上 从 起 始点 $S 到 xz 的 这 一 段子 路 年 Q， 一 定 
是 5 到 xzz 之 间 的 最 短路 径 。 否 则 ， 用 5 到 x2z 的 最 短路 径 R 苦 代 Q， 便 
构成 了 一 条 比 P 更 短 的 路 径 ， 这 显然 是 矛盾 的 。 


2. 从 5S 到 E 的 路 径 必定 经 过 第 i 时 刻 的 某 个 状态 (这 显然 是 大 白话 ， 

但 是 很 关键 ) ,假定 第 i 时 刻 有 k 个 状态 ， 那 么 如 果 记 录 了 从 5 到 第 
;个 状态 的 所 有 大 个 节点 的 最 短路 径 ， 最 终 的 最 短路 径 必 经 过 其 中 的 
一 条 。 这 样 ， 在 任何 时 刻 ， 只 要 考虑 非常 有 限 条 最 短路 径 即 可 。 
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26.4 ”从 起 点 到 终点 的 路 径 必 定 经 过 第 计时 刻 的 某 个 状态 


3.， 结合 上 述 两 点 ， 假 定 当 我 们 从 状态 上 进入 状态 ;+ 1 时 ， 从 3 到 状 
态 ; 上 各 个 节点 的 最 短路 径 已 经 找到 ， 并 且 记 录 在 这 些 节 点 上 ， 和 那么 
在 计算 从 起 点 3 到 第 ;+ 1 状态 的 某 个 节点 Xiti 的 最 短路 径 时 ， 只 要 考 
虚 从 5 到 前 一 个 状态 i 所 有 的 k 个 节点 的 最 短路 径 ， 以 及 从 这 kk 个 节点 
到 xi ,7 的 距离 即 可 。 


基于 上 述 三 点 基础 ， 维 特 比 总 结 了 如 下 的 算法 : 


第 一 步 ， 从 点 $5 出发， 对 于 第 一 个 状态 的 各 个 节点 ,不妨 假 定 有 ui 个 ， 
计算 出 5 到 它们 的 距离 4(5,x1)， 其 中 Xi 代表 任意 状态 1 的 节点 。 因 为 只 
有 一 步 ， 所 以 这 些 距离 都 是 S 到 它们 各 上 自 的 最 短 距离 。 


第 二 步 ， 这 是 理解 整个 算法 的 关键 。 对 于 第 二 个 状态 xz 的 所 有 节点 ,， 要 
计算 出 从 5 到 它们 的 最 短 距离 。 我 们 知道 ， 对 于 特定 的 节点 xzt:， 从 5 到 
它 的 路 径 可 以 经 过 状态 1 的 nn 中 任何 一 个 节点 zi， 当然 ， 对 应 的 路 径 长 
度 就 是 4d(S,xzt) = d(S,x1j) + d(xyj,xzi)。 由 于 j 有 nw 种 可 能 性 ， 我 们 要 
一 一 计算 ， 然 后 找到 最 小 值 。 即 


d(S$, xzi) = Minjc1n, d(S, X11) 十 d(xX1j, Xzi) ( 26.2 ) 
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这 样 对 于 第 二 个 状态 的 每 个 节点 ,需要 mn 次 乘法 计算 。 假 定 这 个 状态 有 
ob 个 节点 ， 把 5 这 些 节 后 的 距离 都 算 一 遍 ， 就 有 0(ni :1n2) 次 计算 。 


接 下 来 ， 类 似 地 按照 上 述 方法 从 第 二 个 状态 走 到 第 三 个 状态 ， 一 直 走 到 
最 后 一 个 状态 ， 就 得 到 了 整个 网 格 从 头 到 尾 的 最 短路 径 。 每 一 步 计算 的 
复 染 度 都 和 相 邻 两 个 状态 引 和 Siri 各 自 的 节点 数 和 ni，niri 的 乘积 成 正 
比 ， 即 OC nir1)。 如 采 假 定 在 这 个 隐 含 马尔 可 夫 链 中 节点 最 多 的 状态 有 
D 个 节点 ， 也 就 是 说 整个 网 格 的 宽度 为 D， 那 么 任何 一 步 的 复杂 度 不 超过 
0(D?)， 由 于 网 格 长 度 是 N， 所 以 整个 维特 比 算法 的 复杂 度 是 O(N . D2)。 


回 到 上 面 屠 个 输入 法 的 问题 ,计算 量 基本 上 是 13 x 13 x 10 = 1690 ~ 10 ， 

这 和 原来 的 10“ 有 天 壤 之 别 。 更 重要 的 是 , 维特 比 算法 是 和 长 度 成 正比 的 。 
无 论 是 在 通信 中 ， 还 是 在 语音 识别 、 打 字 中 ,输入 都 是 按照 流 ( Stream ) 

的 方式 进行 的 ， 只 要 在 处 理 每 个 状态 的 时 间 比 讲话 或 者 打字 速度 快 ( 这 
点 很 容易 做 到 ) ， 那 么 不 论 输 入 有 多 上 长， 解码 过 程 永 远 是 实时 的 。 这 便 
是 数学 漂亮 的 地 方 ! 


虽然 数字 通信 和 自然 语言 处 理 的 基础 算法 的 原理 其 实 就 是 这 么 简单 ， 每 
个 通信 或 者 计算 机 专业 的 学 生 两 个 小 时 就 能 学 会 ， 但 是 在 上 个 世纪 60 
年 代 能 够 想 出 这 个 快速 算法 是 非常 了 不 起 的 。 凭 借 这 个 算法 ， 维 特 比划 
定 了 他 在 数字 通信 中 不 可 将 代 的 地 位 。 但 是 ， 维 特 比 并 不 满足 停留 在 算 
法 本 身 ， 而 是 努力 将 它 推广 出 去 。 维 特 比 为 此 做 了 两 件 事 : 首先 ， 他 放 
弃 了 这 个 算法 的 专利 ;第 二 ， 他 和 雅克 布 斯 博士 一 起 在 1968 年 创办 了 
Linkabit 公司 ， 将 这 个 算法 做 成 芯片 ， 卖 给 其 他 通信 公司 。 


到 这 一 步 维特 比 已 经 比 一 般 的 科学 家 走 得 远 很 多 了 。 但 是 ， 这 仅仅 是 维 
特 比 辉煌 人 人生 的 第 一 步 。 上 个 世纪 80 年 代 ， 维 特 比 致力 于 将 CDMA 技 
术 应 用 于 无 线 通信 。 


第 26 章 ”维特 比 和 他 的 维特 比 算法 川 233 


2 CDMA 技术 一 3G 移动 通信 的 基础 


自从 苹果 推出 iPhone，3G 手机 和 移动 互联 网 就 成 为 科技 界 和 工业 界 的 
热点 话题 。 这 里 面 最 关键 的 通信 技术 就 是 码 分 多 址 ( CDMA ) 技术 。 对 
CDMA 技术 的 发 明和 普及 贡献 最 大 的 有 两 个 人 一 一 奥 匈 帝国 出 生 、 美 籍 
犹太 商 的 海 蒂 ， 拉 玛 尔 ( Hedy Lamarr ) 和 维特 比 。 





26.5 海 蒂 . 拉 玛 尔 


拉 玛 尔 被 誉 为 史上 最 美丽 的 科学 家 ， 其 实 她 的 主要 职业 是 演员 ， 通 信 上 
调频 技术 的 发 明 是 她 的 副业 。 拉 玛 尔 从 小 (10 岁 ) 学 习 舞 中 和 钢琴 ， 

并 因此 进入 了 演艺 界 。 拉 玛 尔 在 演奏 钢琴 时 ， 想 到 用 钢 堆 不同 键 所 发 出 
的 不 同 频率 来 对 信号 进行 加 密 。 如 果 接 收 者 知道 调频 的 序列 就 可 以 解码 
收 到 的 信号 ， 如 果 不 知 道 这 个 序列 ， 就 无 法 破解 。 这 就 像 如 果 你 听 过 并 
记得 肖邦 的 “英雄 波兰 舞曲 ”， 你 就 知道 演奏 的 是 什么 ， 否 则 就 是 一 些 
凌乱 的 音符 而 已 。 拉 玛 尔 和 她 的 邻居 、 作 曲 家 乔治 安泰 尔 ( George 
Antheil ) 一 道 发 明了 一 种 称 为 “保密 通信 系统 ”的 调频 通信 技术 。 在 这 
种 技术 中 ， 通 信 信 号 的 载波 频率 是 快速 跳 变 的 ， 只 要 发 送 方 和 接收 方 事 
先 约定 一 个 序列 (一般 是 一 个 伪 随 机 数 序列 ) 即 可 。 想 截获 信息 的 人 因 
为 不 知道 这 个 序列 而 无 能 为 力 。 拉 玛 尔 最 早 是 采用 钢琴 的 88 个 键 的 频率 
做 载波 频率 ， 将 约定 好 的 调频 序列 做 在 钢琴 卷 ( Piano Roll ) 上， 然后 
载波 频率 根据 钢琴 卷 上 的 打 孔 位 置 而 变化 。 


1 

钢 酚 卷 是 一 个 自动 
控制 钢琴 演奏 的 纸 
卷 ， 像 早期 计算 机 
使 用 的 纸 带 。 上 面 
打 了 眼 ， 表 示 不 同 
的 音符 ， 读 卷 机 可 
以 因此 知道 音符 ， 
并 控制 钢琴 。 这 有 
点 像 今 天 的 MIDI 
的 钢琴 自动 演奏 器 。 
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这 种 调频 技术 是 今天 的 CDMA 的 前 身 ， 它 于 1941 年 获得 美国 专利 。 美 国 
海军 曾经 想 用 这 项 技术 实现 一 个 敌人 无 法 发 现 的 无 线 电 控制 的 鱼雷 ， 但 是 
因为 有 反对 意见 暂时 搁 起 。 很 快 二 战 就 结束 了 ， 直 到 1962 年 都 没有 实现 
这 项 技术 。 越 战 期 间 ， 越 南 军 方 发 现 被 击落 的 美国 飞行 员 可 以 通过 一 种 检 
查 不 出 频率 的 设备 呼救 。 他 们 缴获 这 种 设备 后 ， 搞 不 清 它 的 原理 ， 也 不 知 
道 如 何 能 破获 它 产生 的 信号 , 于 是 他 科 把 这 个 设备 交 给 援 越 的 中 国 顾 问 团 。 
中 国 顾问 团 里 有 一 些 通 信和 专家 ， 包 括 我 在 清华 大 学 的 导师 王 作 英 教授 ， 他 
们 发 现 这 种 设备 能 以 极 低 的 功率 在 很 宽 的 频带 上 发 送 加 密 信 和 号。 对 于 试图 
截获 者 来 讲 ， 这 些 信号 能 量 非常 低 ， 很 难 获取 。 即 使 能 够 获得 ， 因 为 不 知 
道 密码 而 无 法 破解 。 但 是 对 于 接收 者 来 讲 ， 它 可 以 通过 把 很 低 的 能 量 积 累 
起 来 获得 发 送 的 信息 ， 并 且 因 为 知道 密 钥 ， 实 现 解码 。 


这 种 传输 方式 是 在 一 个 较 宽 的 扩展 频带 上 进行 的 ， 因 此 它 称 为 扩 频 传输 
(Spread-Spectrum Transmission ) 。 积 固 征 频 率 的 传输 相 比 ， 它 有 三 点 
明显 的 好 处 。 


1. 它 的 抗 干 扰 能 力 极 强 。 生 活 在 文革 前 后 年 代 的 人 可 能 知道 ， 过 
去 禁止 收 昕 外 国 的 广播 。 这 条 规矩 很 难 实 施 , 因为 无 线 电 波 满 天 都 是 ， 
很 容易 收听 。 因 些 ， 政 府 可 以 做 的 事 就 是 用 噪音 干扰 那些 固定 的 广 
播 频率 。 但 是 对 于 扩 频 传输 ， 这 件 事 几 乎 不 可 能 ， 因 为 不 能 把 所 有 
的 频带 都 干扰 了 ， 这 样 整个 国家 的 通信 就 中 断 了 。 


2. 扩 频 传输 的 信号 很 难 被 截获 ， 这 点 前 面 已 经 讲 了 。 


3， 扩 频传 输 利 用 带宽 更 充分 。 这 一 点 详细 解释 起 来 有 点 甩 嗪 ， 简 
单 地 讲 就 是 固定 频率 的 通信 由 于 邻近 的 频率 互相 干扰 ， 载 波 频 率 的 
频 点 不 能 分 布 得 太 密 集 ， 两 个 频 点 之 间 的 频带 就 浪费 了 。 扩 频 通信 
由 于 抗 干扰 能 力 强 ， 浪 费 的 频带 较 少 。 


虽然 扩 频 技术 和 调频 技术 早 在 上 个 世纪 60 年 代 就 应 用 于 军事 ,但 是 转 为 
民用 则 是 上 个 世纪 80 年代 以 后 的 事情 。 这 首先 要 归功 于 移动 通信 的 需求 。 
上 个 世纪 80 年 代 ， 移 动 通信 开始 快速 发 展 ， 很 快 大 家 发 现 空中 的 频带 不 
够 用 了 ,需要 采用 新 的 通信 和 技术。 其 次 ,具体 到 CDMA 本 身 ， 很 大 程度 
上 归功 于 维特 比 的 贡献 。 
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在 CDMA 以 前 ， 移 动 通信 使 用 过 两 种 技术 : 频 分 多 址 (FDMA ) 和 时 分 
多 址 (TDMA ) 技术 。 


频 分 多 址 顾名思义 , 是 对 频率 进行 切 分 , 每 一 路 通信 使 用 一 个 不 同 的 频率 ， 
对 讲 机 采用 的 就 是 这 个 原理 。 由 于 相 邻 频率 会 互相 干扰 ， 因 此 每 个 信道 
要 有 足够 的 带宽 。 如 果 用 户 数 量 增 加 ， 总 带宽 就 必须 增加 。 我 们 知道 空 
中 的 频带 资源 是 有 限 的 ,因此 要 么 必须 限制 通信 人 数 ,要 么 降低 话音 质量 。 


时 分 多 址 是 将 同一 频带 按时 间 分 成 很 多 份 。 每 个 人 的 (语音 ) 通信 数据 
在 压缩 后 只 占用 这 个 频带 传输 的 1/N 时 间 ， 这 样 同一 个 频带 可 以 被 多 个 
人 同时 使 用 。 第 二 代 移 动 通信 的 标准 都 是 基于 TDMA 的 。 


前 面 讲 了 ， 扩 频传 输 对 频带 的 利用 率 比 固定 频率 传输 更 高 ， 因 此 ， 如 果 
把 很 多 幼 分 的 频带 合 在 一 起 ,很 多 路 信息 同时 传输 ， 那 么 应 该 可 以 提高 
带宽 的 利用 率 ， 这 样 就 可 以 增加 用 户 的 数量 ,或 者 当 用 户 数量 不 变 时 ， 
提高 每 个 用 户 的 传输 速度 。 


美国 的 两 个 主要 无 线 运 营 商 AT&T 和 Verizon， 前 者 的 基站 密度 不 比 
后 者 低 ， 信 号 强度 也 不 比 后 者 差 , 但 是 通话 质量 和 数据 传输 速度 却 明 
显 不 如 后 者 ， 原 因 就 是 AT&T 网 络 总 的 来 讲 是 继承 过 去 TDMA 的 ,而 
Verizon 则 完全 是 基于 CDMA 的 。 





CDOMA 


26.6 ” 频 分 多 址 ( FDMA )、 时 分 多 址 ( TDMA ) 和 码 分 多 址 ( CDMA ) 对 频带 和 时 间 的 利用 率 ， 
图 中 深 色 的 部 分 有 可 利用 部 分 ， 边 界 无 色 的 部 分 为 不 可 利用 部 分 。 
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当然 ， 读 者 可 能 会 有 个 问题 : 如果 一 个 发 送 者 占用 了 很 多 频带 ， 那 么 有 
多 个 发 送 者 同时 发 射电 不 打架 了 ? 没关系， 每 个 发 送 者 有 自己 不 同 的 密 
人 码 ， 接 收 者 在 接 到 不 同 信 号 时 ， 通 过 密码 过 滤 掉 自己 无 法 解码 的 信号 ， 
留 下 和 自己 密码 对 应 的 信号 即 可 。 由 于 这 种 方法 是 根据 不 同 的 密码 区 分 
发 送 的 ， 因 此 称 为 码 分 多 址 。 


将 CDMA 技术 用 于 移动 通信 的 是 高 通 公 司 。 从 1985 年 到 1995 年 ， 高 通 公 
司 制定 和 完善 了 CDMA 的 通信 标准 CDMA1， 并 于 2000 年 发 布 了 世界 上 
第 一 个 主导 行业 的 3G 通信 标准 CDMA2000， 后 来 又 和 欧洲 、 日 本 的 通信 
公司 一 同 制定 了 世界 上 第 二 个 3G 标准 WCDMA。2007 年 ， 维 特 比 作为 数 
学 家 和 计算 机 科学 家 ， 被 授予 美国 科技 界 最 高 成 就 奖 一 国家 科学 奖 。 





图 26.7 ”小 布什 总 统 授予 维特 比 博 士 国家 科学 奖 


或 许 是 因为 维特 比 极 强 的 技术 背景 ， 高 通 公司 完全 是 纯 技 术 基 因 。 虽 然 
高 通 公司 是 今天 世界 上 最 大 的 3G 手机 处 理 需 厂商 ， 但 是 它 没有 制造 ， 只 
有 研发 和 设计 。 而 它 的 很 大 一 部 分 利润 来 自 于 专利 费 。 或 许 是 由 于 过 分 
强调 技术 ， 它 在 第 二 代 移 动 通信 的 竞争 中 ， 输 给 了 欧洲 的 公司 ， 因 为 那 
时 快速 数据 传输 对 移动 用 户 来 讲 不 是 最 必需 的 需求 。 但 是 ， 高 通 技术 上 
的 优势 保证 了 它 对 第 三 代 移 动 通信 的 统治 地 位 。 


如 果 把 维特 比 算 作 数学 家 中 的 一 员 ， 那 么 他 也 许 是 全 世界 有 史 以 来 第 二 
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富有 的 数学 家 【第 一 富有 的 无 疑 是 文艺 复兴 技术 公司 的 创始 人 吉姆 赛 


蒙 斯 ) 。 维 特 比 是 南 加 州 大 学 最 大 的 资助 者 之 一 ， 该 校 的 工学 院 也 是 以 3 


他 的 名 字 命 名 的 。 他 的 财富 来 自 于 他 将 技术 转换 成 商业 的 成 功 。 pe 


美元 。 


: 3 ld 


USCU 


VTTERBI 
Da EOF 
二 ENGINEERING 





Vy 人 
or 和 


26.8 ” 南 加 州 大 学 的 维特 比 工学 院 


3 ”小结 


世界 上 绝 大 多 数 科 学 家 最 大 的 满足 就 是 自己 的 研究 成 果 得 到 同行 的 认可 ， 
如 果 能 有 应 用 就 更 是 喜出望外 了 。 而 能 够 亲自 将 这 些 成 就 应 用 到 实际 中 
的 人 少 之 又 少 ， 因 为 做 到 这 一 点 对 科学 家 来 讲 很 不 容易 。 这 样 的 科学 家 
包括 RISC 的 发 明 人 亨利 西 和 DSL 之 父 查 菲 等 人 。 这 些 人 已 经 非常 了 不 
起 了 ， 但 是 也 只 做 了 一 个 行业 中 他 们 擅长 的 部 分 ， 而 不 是 从 头 到 尾 完成 
一 次 革命 。 而 维特 比 所 做 的 远 远 超出 了 这 一 点 ， 他 不 仅 提 供 了 关键 性 的 
发 明 ， 而 且 为 了 保障 这 项 关键 性 的 发 明 的 效益 在 全 社会 得 到 最 大 化 ， 他 
解决 了 所 有 配套 的 技术 。 所 有 试图 另辟蹊径 的 公司 都 发 现 ， 高 通 公司 的 
标准 几乎 无 法 绕 过 去 ， 因 为 他 们 已 经 把 能 想到 的 事情 都 想到 了 。 
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第 27 章 再 谈 文 本 自动 分 类 问题 
-一 期 望 最 大 化 算法 


前 面 的 章节 已 经 多 次 讨论 到 文本 自动 分 类 问题 ， 一 方面 是 因为 今天 互联 
网 的 各 种 产品 和 应 用 都 需要 用 到 这 个 技术 ， 另 一 方面 ， 这 个 技术 可 以 
用 到 几乎 所 有 分 类 中 ， 比 如 用 户 的 分 类 、 词 的 分 类 、 商 品 的 分 类 ， 甚 
至 生物 特征 和 基因 的 分 类 ， 等 等 。 这 一 章 再 介绍 一 些 文本 目 动 分 类 的 技 
术 ， 并 借 此 说 明 在 机 器 学 习 中 最 重要 的 一 个 方法 一 期 望 最 大 化 算法 
( Expectation Maximization Algorithm )。 这 个 算法 ,我 称 之 为 上 带 的 算法 。 


1 文本 的 自 收敛 分 类 


关于 文本 TF-IDEP 回 量 的 计算 和 余弦 距离 的 计算 就 不 再 重复 了 ， 在 分 类 
中 依然 用 这 个 特征 来 度量 。 和 前 面 章 节 介 绍 的 方法 不 同 的 是 ， 这 里 既 不 
需要 事先 设 定好 类 别 ， 也 不 需要 对 文本 两 两 比较 进行 合并 全 类 。 而 是 随 
机 地 挑 出 一 些 类 的 中 心 (Centroids ) ， 然 后 来 优化 这 些 中 心 ， 使 它们 和 
真实 的 聚 类 中 心 尽 可 能 一 致 。 


这 种 自 收敛 的 分 类 说 起 来 很 简单 。 假 设 有 N 篇 文本 ， 对 应 N 个 向 量 
训 ,V2,… Vw， 希望 把 它们 分 到 Kk 类 中 ， 而 这 KK 类 的 中 心 是 c4,cz,.…sck。 无 
论 是 这 些 向 量 ， 还 是 中 心 ， 都 可 以 看 成 是 空间 中 的 后 。 当 然 可 以 是 一 
个 固定 的 数 ， 比 如 我 们 认为 文本 的 主题 只 有 100 类 ; 也 可 以 是 一 个 不 年 
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的 数 ， 比 如 我 们 并 不 知道 文本 的 主题 有 多 少 类 ， 最终 有 多 少 类 就 分 成 多 
少 类 。 分 类 的 步 本 如下: 


1， 戎 机 挑选 人 个 点 ， 和 作为 起 始 的 中 心 c(0)cz(0 cx(0)， 如 图 
27.1 中 各 个 点 属于 三 个 类 , 我 们 用 黑 十 字 代 表 随 机 指定 的 类 的 中 心 。 


也 
六 
和 
侧 加 
浊 A 
a 和 
a 
二 
蚁 | wy 中 ks, 
次 
中 


27.1 三 个 类 的 自动 分 类 


2， 计 算 所 有 点 到 这 些 聚 类 中 心 的 距离 ， 将 这 些 点 归 到 最 近 的 一 类 
中 。 如 下 图 : 





中 第 3 类 


27.2 ”根据 中 心 对 每 个 点 重新 分 类 ， 并 计算 新 的 中 心 
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3.， 重新 计算 每 一 类 的 中 心 。 假 定 某 一 类 中 的 vv ， 每 一 个 点 有 多 个 维 
度 ， 即 


Pi = Vi 142 


V2 = V2 V22, 1 D2d 


Py= Vm Vm2z) LT] Vmd 


最 简单 的 办 法 就 是 用 这 些 类 的 中 心 W = wu wz…wm 作为 其 中 心 ， 其 
中 第 : 维 的 信 计 算 如 下 : 


2 十 Za2i 十 … 十 Ti 
Ef 


新 的 聚 类 中 心 和 原先 的 相 比 会 有 一 个 位 称 ， 图 27.2 中 用 箭头 表示 了 
中 心 的 移动 。 箭 头 指向 处 为 新 的 聚 类 中 心 。 


Wi ( 27.1) 


4. 重复 上 述 过 程 ， 直 到 每 次 新 的 中 心 和 旧 的 中 心 之 间 偶 移 非 常 非 








第 3 类 
图 27.3 第 二 次 迭代 后 的 结果 
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图 27.4 ”第 三 次 迭代 后 ， 基 本 已 经 收 生 


上 面 这 个 例子 是 我 随机 产生 的 ， 大 家 从 这 几 张 图 可 以 看 出 ， 聚 类 的 过 程 
经 过 几 次 送 代 就 可 以 收 化 了。 这 个 方法 不 需要 任何 人 工 干预 和 人 先 验 的 经 
验 (Prior Experience ) ， 是 一 些 纯粹 的 数学 计算 ， 最 后 就 完全 得 到 了 目 
动 的 分 类 。 这 简直 有 点 令 人 难以 置信 ， 读 者 可 能 会 问 这 样 做 是 否 就 能 保 
证 将 距离 近 的 点 聚集 在 一 起 ?如 果 能 ,为 什么 ? 


2 延伸 阅读 : 期 望 最 大 化 和 收敛 的 必然 性 
读者 背 寻 知识 : 机 器 学 习 或 者 模式 分 类 。 


首先 要 明确 一 点 ， 就 是 我 们 的 距离 函数 足够 好 ， 它 能 保证 同一 类 相对 上 
离 较 近 ， 而 不 同类 的 相对 距离 较 远 。 我 们 希望 最 终 的 分 类 结果 是 : 相近 
的 点 都 被 察 集 到 了 一 类 中 ， 这 样 同一 类 中 各 个 点 到 中 心 的 平均 距离 a 较 
近 ， 而 不 同类 中 心 之 间 的 平均 距离 D 较 远 。 我 们 希望 的 迭代 过 程 是 每 一 
次 迭代 时 ，ad 比 以 前 变 小 ， 而 D 变 大 。 


假定 第 1 类 到 第 K 类 中 分 别 有 mmnaz mx 个 点 ， 每 一 类 中 ， 点 到 中 心 的 
平均 距 网 是 di,dz,…,di ， 因 此 d= (na da 二 ma Gd 十 …… 十 了 oe 继 
续 假 定 第 i 类 和 第 j 类 中 心 之 间 的 距离 是 Dj,， 那么 D -KK pe KR 二 5” 如果 
考虑 到 不 同类 的 大 小 ， 即 点 的 数量 ， 那么 DD 加 权 平 均 的 公式 应 该 是 
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Dinin; 


D -Pam (27.2 ) 





假定 有 一 个 点 xx， 它 在 前 一 次 迭代 中 属于 第 1 类 ， 但 是 在 下 一 次 选 代 中 ， 
它 和 第 类 距离 更 近 ， 根 据 我 们 的 算法 ， 它 将 被 安排 到 第 j 类 中 。 不 难 证 
明 dfi+ 1) < dQ) ， 同 时 DG+1) > DOD。 


好 了 ， 知 道 了 每 一 步 近 代 后 ,我 们 都 离 目 标 ( 最 佳 分 类 ) 更 近 了 一 步 ， 
直到 最 终 达 到 最 佳 分 类 。 


可 以 把 上 面 的 思想 扩展 到 更 一 般 的 机 器 学 习 问 题 中 。 上 述 算法 实际 上 包 
含 两 个 过 程 和 一 组 目标 孙 数 。 这 两 个 过 程 是 ; 


1， 根 据 现 有 的 聚 类 结果 ， 对 所 有 数据 ( 点 ) 重新 进行 划分 。 如 果 
把 最 终 得 到 的 分 类 结果 看 作 是 一 个 数学 的 模型 ， 那 么 这 些 罕 类 的 中 
心 ( 值 ) ， 以 及 每 一 个 点 和 聚 类 的 隶属 关系 ， 可 以 看 成 是 这 个 模型 
的 参数 。 


2. 根据 重新 划分 的 绪 果 ， 得 到 新 的 聚 类 。 


而 目标 函数 就 是 上 面 的 点 到 聚 类 的 距离 d 和 聚 类 之 间 的 距离 D， 整 个 过 程 
就 是 要 最 大 化 目标 函数 。 


在 一 般 性 的 问题 中 ， 如 果 有 非常 多 的 观测 数据 (点) ， 类 似 上 面 的 方 
法 ， 让 计算 机 不 断 迭 代 来 学 习 一 个 模型 。 首 先 ， 根据 现 有 的 模型 计算 
各 个 观测 数据 输入 到 模型 中 的 计算 结果 ， 这 个 过 程 称 为 期 望 值 计算 过 程 
(Expectation ) ， 或 三 过 程 ; 接 下 来 ， 重 新 计算 模型 参数 ， 以 最 大 化 期 
望 值 。 在 上 面 的 例子 中 ,我 们 最 大 化 D 和 一 d ， 这 个 过 程 称 为 最 大 化 的 过 
程 (Maximization ) ,或 M 过 程 。 这 一 类 算法 都 称 为 EM 算法 。 


前 面 介 绍 过 的 很 多 算法 ， 其 实 都 是 EM 算法 。 比 如 隐 含 马尔 可 夫 模 型 的 
训练 方法 Baum-Welch 算法 ， 以 及 最 大 蚁 模型 的 训练 方法 GIS 算法 。 在 
Baum-Welch 算法 中 ,EE 过程 就 是 根据 现 有 的 模型 计算 每 个 状态 之 间 转 
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移 的 次 数 ( 可 以 是 分 数值 ) 以 及 每 个 状态 产生 它们 输出 的 次 数 ，M 过 程 
就 是 根据 这 些 次 数 重新 估计 隐 含 马尔 可 夫 模 型 的 参数 。 这 里 最 大 化 的 目 
标 函 数 就 是 观测 值 的 概率 。 在 最 大 燃 模 型 的 通用 迭代 算法 GIS 中 ，E 过 
程 就 是 跟着 现 有 的 模型 计算 每 一 个 特征 的 数学 期 望 值 ，M 过 程 就 是 根据 
这 些 特 征 的 数学 期 望 值 和 实际 观测 值 的 比值 ， 调 整 模 型 参数 。 这 里 ， 最 
大 化 的 目标 函数 是 箭 阴 数 。 


最 后 还 要 讨论 一 点 ， 就 是 EM 算法 是 否 一 定 能 保证 获得 全 局 最 优 解 ? 如 
果 我 们 优化 的 目标 函数 是 一 个 凸 函 数 , 那么 一 定 能 保证 得 到 全 局 最 优 解 。 
所 幸 的 是 我 们 的 箭 函数 是 一 个 凸 函 数 ， 如 果 在 N 维 空间 以 欧 氏 距离 做 度 
量 , 聚 类 中 我 们 试图 优化 的 两 个 函数 也 是 西 函数 。 但 是 , 对 应 的 很 多 情况 ， 
包括 文本 分 类 中 的 余 驴 距离 都 不 保证 是 凸 函 数 ， 因 此 有 可 能 EM 算法 给 
出 的 是 局 部 最 佳 解 而 非 全 局 最 佳 解 。 







了 了 hat moumrtomn 9 ave Higner 
bd wnere Ehe poetn? 






ANS 


图 27.5” 疏 到 了 山顶 ， 那 个 山头 好 像 更 高 ， 可 是 我 已 经 找 不 到 向 .上 的 路 了 


3 小 结 


EM 算法 只 需要 有 一 些 训练 数据 ,定义 一 个 最 大 化 函数 ， 剩 下 的 事 悄 就 
交 给 计算 机 了 。 经 过 若干 次 迭代 ,我们 需要 的 模型 就 训练 好 了 。 这 实在 
是 太美 妙 了 , 这 也 许 是 造物 主 刻意 安排 的 。 所 以 我 把 它 称 作 上 帝 的 算法 。 
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搜索 广告 之 所 以 比 传统 的 在 线 展示 广告 ( Display Ads ) 赚钱 多 很 多 , 除了 
搜索 者 的 意图 明确 外 ， 更 重要 的 是 靠 预 测 用 户 可 能 会 点 击 哪 些 广 告 , 来 
决定 在 搜索 结果 页 中 插入 哪些 广告 。 


1 搜索 广告 的 发 展 


搜索 广告 基本 上 走 过 了 三 个 阶段 。 第 一 个 阶段 是 以 时 期 Overture 和 百度 
的 广告 系统 为 代表 , 按 广告 主 出 价 高 低 来 排名 的 竞价 排名 广告 。 简 单 地 说 ， 
就 是 谁 给 钱 多 ， 就 优先 展示 谁 的 广告 。 为 了 支持 这 种 做 法 ,雅虎 还 给 出 了 
一 个 假设 ， 出 得 起 价钱 的 公司 一 定 是 好 公司 ， 因 此 不 会 伤害 用 户 体验 。 但 
是 这 个 假设 等 同 于 好 货 一 定 能 淘汰 劣 货 ， 事 实 并 非 如 此 ， 出 得 起 价钱 的 
公司 和 常常 是 卖 假 药 的 公司 ， 因 为 它们 获 利 最 丰 。 这 样 一 来 就 破坏 了 用 户 
体验 ， 因 此 很 快 用 户 就 不 点 这 些 广告 了 ， 久 而 和 久之， 所 有 的 广告 用 户 都 
不 点 了 。 如 果 这 样 持续 多 年 ， 没 有 了 点 击 量 ， 广 告 商 也 就 不 来 了 。 这 个 
行业 就 要 萎缩 。 


事实 上 ， 这 种 看 上 去 接 钱 多 的 方法 ， 并 没有 给 雅虎 带 来 比 Google 更 多 的 
利润 。 相 反 ， 它 的 单位 搜索 量 带 来 的 收入 (一 般 以 千 次 搜索 量 带 来 的 收 
人 来 衡量 ， 称 为 RPM ) 不 到 Google 的 一 半 。 而 Google 反而 不 一 定 将 出 
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价 高 的 广告 放 在 前 面 ， 而 是 预测 到 哪个 广告 可 能 被 点 击 ， 结 合 出 价 和 点 
击 率 ( Click Through Rate, 简称 CTR ) 这 两 点 来 决定 广告 的 投放 。 几 年 后 ， 
雅虎 和 百度 看 到 自身 和 Google 的 差距 ， 也 学 着 Google 的 方法 做 ， 就 是 
所 谓 的 “Panama 系统 ”和 “凤梨 系统 ”。 它们 相当 于 Google 的 第 一 个 版 本 ， 
可 以 看 作 是 搜索 广告 的 第 二 个 阶段 。 这 里 面 的 关键 技术 就 是 预测 用 户 可 
能 点 击 候选 广告 的 概率 ， 或 者 称 为 点 击 率 预 估 。 第 三 个 阶段 其 实 是 一 个 
全 局 的 进一步 优化 、 和 这 一 章 的 主题 无 关 ， 就 不 袭 述 了 。 


点 击 率 预 估 最 好 的 办 法 ， 就 是 根据 以 前 的 经 验 值 来 预测 。 比 如 对 特定 的 
查询 , 广告 A 展示 了 1000 次 ,被 点 击 18 次 ,广告 B 展 示 1200 次 ， 被 
点 击 30 次 ， 那 么 它们 的 点 击 率 分 别 为 1.8% 和 2.5%。 这 样 一 来 ， 如 果 两 
个 广告 出 价 相当 ， 优 先 展示 广告 B 似乎 更 合理 些 。 


实际 问题 远 没有 这 人 么 简单 。 首 先 , 这 种 办 法 对 于 新 的 广告 显然 不 合适 ， 
因为 它们 没有 被 点 击 的 历史 数据 。 第 二 ， 即 使 对 于 旧 的 广告 ， 绝 大 部 分 
时 候 ， 一 个 查询 对 应 的 特定 广告 不 过 两 三 次 的 点 击 。 这 时 候 ， 统 计 的 数 
据 严 重 不 足 ， 很 难说 被 点 了 三 次 的 就 比 被 点 了 两 次 的 好 ; 这 就 好 比 我 们 
不 能 从 楼 上 看 到 楼 下 有 三 个 女生 、 两 个 男生 ， 就 得 到 这 个 城市 的 男女 比 
例 是 2 :3 一 样 。 


第 三 ,广告 的 点 击 量 显然 和 它们 摆 放 的 位 置 有 关 : 放 在 第 一 条 的 广告 的 
点 击 率 理所当然 比 第 二 条 的 点 击 率 要 高 很 多 。 因此, 在 做 点 击 率 预 估 时 ， 
必须 消除 这 个 噪音 。 最 后 还 要 指出 ， 影 响 点 击 率 的 因素 非常 多 ， 这 些 都 
是 要 在 做 点 击 率 预 佑 时 考虑 的 。 


现在 麻烦 了 ， 这么 多 因素 要 用 一 个 统一 的 数学 模型 来 描述 看 来 不 是 一 件 
容易 的 事情 。 更 何况 我 们 还 希望 这 个 模型 能 够 随 着 数据 量 的 增加 越 做 越 
准确 。 早 期 有 很 多 对 经 验 值 进 行 修正 和 近似 的 做 法 ， 但 是 在 整合 各 个 特 
征 时 ， 效 果 都 不 是 很 好 。 后 来 工业 界 普 遍 采 用 了 逻 竹 苛 归 模型 《Logistic 
Regression 或 Logistic Model ) 。 
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2 逻 和 丝 回归 模型 


逻辑 回归 模型 是 将 一 个 事件 出 现 的 概率 适应 到 一 条 轩 辑 曲线 《Logistic 
Curve， 其 值 域 在 (0, 1) 之 间 ) 上 。 人 逻辑 曲线 是 一 条 S 型 的 曲线 ， 其 特 扣 
是 开始 变化 快 ， 逐 渐 减 慢 ， 最 后 饱和 。 比 如 一 个 简单 的 逻辑 回归 也 数 有 
如 下 形式 


e3 1 
f(2) = gz TI Irie-z (28.1) 
对 应 如 下 的 曲线 : 





28.1 逻辑 回归 应 数 的 曲线 


逻辑 自 回归 的 好 处 是 它 的 变量 的 范围 是 从 -% 到 +%， 而 值 域 范 围 限制 在 
0-1 之 间 。( 当然 ， 由 于 z 超出 [-6，6] 后 肾 数 值 基本 上 没有 变化 ， 在 应 
用 中 一 般 不 考虑 ) 我 们 知道 对 应 于 [0, 1] 之 间 的 函数 可 以 是 一 个 概率 函数 ， 
这 样 逻 辑 回归 函数 就 可 以 和 一 个 概率 分 别 联系 起 来 了 。 而 自 变量 z 的 值 
在 (-w，,+%m ) 的 好 处 是 ， 它 可 以 把 这 种 信号 组 合 起 来 ， 不 论 组 合成 多 
大 或 者 多 小 的 值 ， 最 后 依然 能 得 到 一 个 概率 分 布 。 


回 到 上 述 预 估 点 击 率 的 问题 ,假如 有 个 影响 点 击 率 的 变量 za Xz .…, Xko 
用 线性 的 办 法 将 它们 组 合 起 来 


z= po+ Bx t+ Bax t+ Pixxy (28.2 ) 
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这 里 面 ， 每 一 个 被 称 为 变量 ,它们 代表 了 影响 概率 预测 的 各 种 信息 ， 
比如 广告 的 位 置 、 广 告 和 搜索 词 的 相关 性 、 广 告 展现 的 时 间 ( 比如 晚上 
广告 的 点 击 率 会 略 高 于 下 午 ) 。 对 应 的 Bi 被 称 为 其 自 回归 参数 ， 表 示 相 
应 变量 的 重要 性 。Bo 是 一 个 特殊 的 参数 ， 和 任何 变量 无 关 ， 可 以 保证 在 
没有 任何 信息 时 ， 有 一 个 稳定 的 概率 分 布 。 


下 面 看 一 个 简单 的 例子 。 预 测 一 下 一 个 有 关 鲜 花 搜索 的 广告 点 击 率 。 假 
定 几 个 影响 点 击 率 的 因 于 分 别 是 每 于 次 展示 的 点 击 次 数 〈 或 者 说 单位 点 
击 量 所 需要 的 展现 量 ) 、 广 告 和 搜索 的 相关 性 (对 应 第 二 个 变量 X,) 、 
目标 人 群 的 性 别 (对 于 第 三 个 变量 Xs) 等 。 


假定 入 对 应 单位 点 击 所 需 的 展现 量 ，Xz 对 应 广告 和 搜索 的 相关 性 ,在 
0-1 之 闻 , 1 为 完全 匹配 , 0 为 毫 无 关系 , X3 对 应 性 别 , 1 为 男性 , 0 为 女性 。 


假定 对 应 的 参数 Bo = 5.0, Bi =1.1, fb, = 一 10，pa = 1.5。 


比如 搜索 关键 词 是 鲜花 ,广告 是 玫瑰 ， 对 应 的 变量 值 分 别 为 XX = 50， 
X, = 0.95， 用 户 为 男性 : 


那么 Z =5+1.1x50+(-107x0.95+1.5x1l=52， 那么 点 击 率 的 预 估 


1 
P = 了 = 0.019 = 1.9% ( 28.3) 


这 里 面 的 技巧 有 两 点 。 第 一 是 如 何 选 取 与 广告 点 击 相 关 的 信息 ， 这 些 是 
专门 从 事 搜索 广告 的 工程 师 和 数据 挖掘 的 专家 的 工作 , 这 里 就 不 效 述 了 。 
我 们 集中 介绍 一 下 第 二 点 一 一 如何 决 定 这 些 参数 诊 。 


上 面 的 逻辑 回 归 子 数 其 实 上 是 一 个 一 层 的 人 工 神 经 网 络 ， 如 果 尖 要 训练 
的 参数 数量 不 多 。 所 有 训练 人 工 神 经 网 络 的 方法 都 适用 。 但 是 ， 对 于 搜 
索 广 告 的 点 击 率 预 估 这 样 的 问题 ,需要 训练 的 参数 有 上 百 万 个 ， 因 此 要 
求 更 有 效 的 训练 方法 。 读 者 可 能 已 经 发 现 ， 具 有 公式 (28.1 ) 形态 的 逻 
辑 回 归 函 数 和 我 们 在 前 面 介绍 过 的 最 大 烂 消 数 ， 在 蚂 数 值 和 形态 上 有 着 
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共性 ,它们 的 训练 方法 也 是 类 似 的 ， 训 练 最 大 燃 模 型 的 IIS 方法 可 以 直接 
用 于 训练 逻辑 回归 函数 的 参数 。 


一 个 广告 系统 中 ， 有 没有 很 好 的 点 击 率 预 估 机 制 决定 是 否 能 成 倍 提 高 单 
位 搜索 的 广告 收入 。 而 目前 Google 和 腾讯 的 广告 系统 对 于 点 击 率 预 估 的 
方法 ， 都 是 采用 逻辑 回归 函数 来 预测 的 。 


3 小 结 


逻辑 回归 模型 是 一 种 将 影响 概率 的 不 同 因素 结合 在 一 起 的 指数 模型 。 和 
很 多 指数 模型 ( 例如 最 大 人 入 模 型 ) 一 样 ， 它 们 的 训练 方法 相似 ， 都 可 以 
采用 通用 迭代 算法 GIS 和 改进 的 迭代 算法 IIS 来 实现 。 除 了 在 信息 处 理 
中 的 应 用 ， 逻 辑 回 归 模 型 还 广泛 应 用 于 生物 统计 。 
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第 29 音 各 个 击破 算法 和 Google 云 计算 
的 基础 


云 计算 在 七 年 前 (2005 年 ) 被 划 了 一 个 大 大 的 问号 , 今天 ， 连 非 IT 行业 
的 人 都 开始 谈论 这 个 问题 。2011 年 , 我 至 少 参 加 了 七 八 个 云 计算 的 研讨 会 、 
标准 制定 会 。 总 的 感觉 是 ， 大 家 对 云 计算 的 表层 多 有 了 解 ， 但 是 ， 对 技术 
的 关键 点 了 解 甚 少 。 


云 计 算 技 术 涉 及 的 面 很 广 ， 从 存储 、 计 算 、 资 源 的 调度 到 权限 的 管理 等 ， 
有 兴趣 的 读者 可 以 参看 拙 作 《浪潮 之 匡 少 中 关于 云 计 算 的 一 章 ， 这 里 不 再 
北 述 。 云 计算 的 一 个 关键 问题 是 ， 如 何 把 一 个 非常 大 的 计算 问题 ， 自 动 分 
解 到 许多 计算 能 力 不 是 很 强大 的 计算 机 上 ， 共 同 完 成 。Google 针对 这 个 问 
题 给 出 的 解决 工具 是 一 个 叫 MapReduce 的 程序 ， 其 根本 原理 就 是 计算 机 
算法 上 很 常见 的 分 治 算法 ( Divide-and-Conquer ), 我 称 之 为 “各 个 击破 ”法 。 


1 分 治 算法 的 原理 


分 治 算法 是 计算 机 科学 中 最 漂亮 的 工具 之 一 。 它 的 基本 原理 是 : 将 一 个 
复杂 的 问题 ， 分 成 者 干 个 简单 的 子 问题 进行 解决 。 然 后 ， 对 子 问题 的 结 
果 进 行 合 并 ， 得 到 原 有 问题 的 解 。 
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1 
推导 如 下 : 假定 N 个 
元 素 的 数组 归并 排 
序 的 算法 计算 时 间 
是 7T(N), 那么 N/2 个 
元 未 的 子 数组 排序 
时 间 为 T(N/2), 合 
并 过 程 的 计算 时 
间 为 N 的 线性 范 
数 ， 即 OUV)。 因 
此 T(N) = 27(N/2) 
+oN。 解 这 个 
递归 方程 ， 即 得 


T(N) = O(N . logN) 。 


2 从 分 治 算法 到 MapReduce 


束 悉 计算 机 算法 的 读者 都 知道 归并 排序 ( Merge Sort ) 的 原理 。 假 定 要 
对 一 个 长 度 为 衣 的 数组 Qi, az aa,…,anw 进行 排序 ， 如 果 采 用 对 w 和 两 两 
比较 的 办 法 ( 冒 泡 排 序 ) ,复杂 度 是 0CN”*) ， 不 仅 非 常 策 【 慢 ) ， 而 且 
如 果 数 组 过 大 〈 比如 几 千 亿 个 元 素 ) ， 也 无 法 在 一 台 计算 机 上 完成 。 用 
分 治 算法 ， 是 将 这 个 大 数组 分 为 几 份 ， 比 如 一 分 为 二 ， 变 为 4&1 2,…, anyz 
和 QnN/z+1 QN/2+2，…，QN ， 对 每 一 半分 别 进 行 排序 。 当 这 两 个 子 数组 排序 完 
毕 后 ， 把 它们 从 头 到 尾 合 并 ， 得 到 原来 数组 的 排序 结果 。 对 应 的 大 小 正 
好 是 原 数组 一 半 大 ， 只 需要 进行 1/4 的 比较 即 可 。 当 然 ， 合 并 的 过 程 需 
要 一 些 额 外 的 时 间 ， 但 是 和 省 下 的 时 间 相 比 可 以 忽略 不 计 。 同 理 ， 还 可 
以 对 前 后 每 一 半 子 数组 继续 分 解 成 更 小 的 子 数 组 ， 直 到 子 数 组 中 只 有 两 
个 元 素 。 这 种 做 法 大 大 缩短 了 整个 排序 的 时 间 ， 由 原来 的 O(N”“) 简 化 到 
O(N .logN) '， 如 果 NN 是 一 百 万 ， 那 么 计算 时 间 将 缩短 一 万 售 。 这 个 排序 
算法 在 每 个 子 任务 完成 后 ， 都 要 进行 合并 ， 归 并 排序 算法 也 因此 得 名 。 


CI1 Ca2 … Un bis bi2 … bin 
假定 矩阵 4 = Q21 022 Uz 同时 和 矩阵 有 = bay pzz … bzy 
dN1 CN2 … CNN bn b byw 


要 计算 它们 的 乘积 C = A x B。 


Cnm = Yan * bim 


: 


做 上 面 的 计算 要 扫描 矩阵 4 中 nn 行 的 所 有 元 素 ， 以 及 和 矩阵 BB 中 mm 列 的 所 
有 元 罕 。 


(29.1 ) 


C11 和 C1 | CIN 
Ci1 CE Ci [和 Ci 


CN1 “* CN2 (CNN 
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Ql  …- Qj QlN bii a bi; = biw 
= | GQ dw |x | be » biy :1£ bin ( 29.2) 
UN1 ”CN '* Qny by … Phi … pv 


如 果 一 台 服 务 器 存 不 下 整个 大 数组 ， 这 件 事 就 变 得 很 麻烦 。 好 了 ， 让 


我 们 看 看 分 治 算法 怎么 做 。 首 先 ， 把 矩阵 4 按 行 拆 成 10 个 小 矩阵 
Ai, A,, "a ;Ai0 9 每 一 个 有 N/10 行 。 





人 :ANxN 的 矩阵 A412,.…, A10:N/10xNN 的 和 矩阵 


29.1 将 矩阵 4 按 行 分 成 10 个 子 和 矩阵 Ai, 42， Ai0 
分 别 计算 每 个 小 矩阵 Ay, A,, oe ;Ai0 和 B 的 彝 积 多 不 失 一 般 性 和 以 41 来 说 有 明 9 
1 一 1 .ph. 
Cnm 2 Ci em ( 29.3 ) 


这 样 就 在 第 一 台 计 算 机 上 计算 出 5 矩阵 中 前 1 / 10 行 的 元 素 。 


和 


4 
“ow 


中 


BD 
由] 
HE 

2 

人 
ss 

站 

* 

2 

站 





图 29.2 第 一 人 台 服 务 器 完成 前 十 分 之 一 的 计算 量 


同 理 ， 可 以 在 第 二 台 、 第 三 台 、…… 服 务 器 上 计算 出 其 他 元 素 。 当 然 ， 
细心 的 读者 可 能 会 发 现 , 抢 阵 中 和 和 矩 阵 4 一 样 大 ,一 台 服 务 器 同样 存 不 
下 。 不 过 没有 关系 ， 同 样 可 以 按 列 切 分 矩阵 刀 ， 使 得 每 台 服 务 器 只 存 矩 阵 
中 的 1/10。 上 述 公 式 可 以 直接 使 用 ， 只 是 这 回 只 完成 了 的 17V10。 
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因此 ， 这 次 需要 100 台 服 务 器 而 不 是 原来 的 10 台 ， 于 是 ， 在 单机 上 无 法 
求解 的 大 问题 就 被 分 解 成 小 问题 得 以 解决 。 





29.3 ”第 一 台 服 务 器 的 工作 被 分 配 到 10 人 台中， 这 是 其 中 的 第 五 台 


在 上 面 的 例子 中 ， 增 加 了 服务 器 的 数量 ， 但 是 每 个 元 素 cnm 的 绝对 计算 
时 间 其 实 并 没有 减少 〈 这 点 不 像 归 并 排序 ) 。 但 是 在 某 些 应 用 中 ， 增 加 
服务 器 数量 可 以 带 来 绝对 计算 时 间 的 减少 。 例如， 只 是 要 得 到 C 中 某 个 
特定 元 素 cnm 而 不 是 整个 C 矩 降 ， 这 种 需求 在 链接 分 析 或 者 日 志 处 理 中 有 
时 会 遇 到 ， 假 如 希望 通过 10 倍 的 机 器 能 够 缩短 计算 时 间 。 这 个 需求 也 可 
以 通过 分 治 算 法 来 实现 ， 具 体 解决 方法 如 下 : 


对 答 阵 A 按 行 切 分 ， 对 和 矩阵 8 按 列 切 分 。41 是 4 的 前 十 分 之 一 行 ，4s 是 接 
下 来 的 十 分 之 一 ， 等 等 ， 对 8 也 是 如 此 。 然 后 用 同样 的 方法 计算 得 到 10 
个 中 间 结 果 chmw…,cim。 而 cnm 只 是 这 10 个 数字 相 加 的 结果 。 下 面 每 个 
结果 的 计算 量 都 是 最 后 结果 的 十 分 之 一 。 这 样 ， 我 们 就 用 10 倍 的 计算 机 
数量 将 计算 时 间 缩 短 了 10 倍 。 


eb 


1 
Cnm 一 Uni' bim 


TT 
| 


2N 
10 


2 一 
Cnm 一 2 ani * Dim 


i=N/10+1 


2 


(29.4 ) 


N 
10 一 
Cnm 三 > Qni * bim 


t=9N/10+1 
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这 就 是 MapReduce 的 根本 原理 。 将 一 个 大 任务 拆 分 成 小 的 子 任 务 ， 并 
且 完 成 子 任务 的 计算 , 这 个 过 程 叫做 Map , 将 中 间 结 果 合 并 成 最 终结 果 ， 
这 个 过 程 叫做 Reduce。 当 然 ， 如 何 将 一 个 大 和 抢 阵 目 动 插 分 ， 保 证 各 个 
服务 器 负载 均衡 ， 如 何 合并 返回 值 ， 就 是 MapReduce 在 工程 上 所 做 的 
事情 了 。 


在 Google 开发 MapReduce 之 前 ， 上 述 思 想 已 经 在 很 多 高 强度 计算 上 使 
用 了 。 我 在 约翰 霍 普 金 斯 大 学 训练 最 大 炉 模 型 时 就 过 到 过 类 似 的 问题 。 
我 经 常 需要 用 20 台 左 右 的 服务 器 ( 这 在 Google 云 计算 出 来 前 已 经 是 非 
常 奢侈 了 ) 同时 工作 。 那么 我 工作 的 方式 就 是 手工 将 这 些 大 抵 阵 拆 开 并 且 
推送 (Push ) 到 不 同 的 服务 器 上 ， 然 后 把 结果 组 合 起 来 。 伯 克利 加 州 大 
学 提供 了 一 个 在 操作 系统 上 检测 各 个 子 任务 完成 情况 的 工具 ， 这 样 ， 我 
需要 上 自己 写 一 个 批 处 理 流 水 线 来 完成 Map 和 Reduce 这 两 个 过 程 。 唯 一 
的 差别 是 ， 有 了 MapReduce 工具 ， 所 有 的 调度 工作 都 是 自动 完成 的 ， 而 
在 此 以 前 ， 我 是 自己 完成 计算 机 的 调度 工作 。 


3 小 结 


我 们 现在 发 现 Google 颇 为 神秘 的 云 计算 中 最 重要 的 MapReduce 工具 ， 
其 实 原理 就 是 计算 机 算法 中 常用 的 “各 个 击破 ”法 ， 它 的 原理 原来 这 人 么 
简单 一 将 复杂 的 大 问题 分 解 成 很 多 小 问题 分 别 求解 ， 然 后 再 把 小 回 题 
的 解 合并 成 原始 问题 的 解 。 由 此 可 见 ， 在 生活 中 大 量 用 到 的 ， 真正 有 用 
的 方法 往往 简单 而 又 朴实 。 
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附录 ”计算 复杂 度 


计算 机 算法 的 效率 是 用 计算 复杂 度 (Computational Complexity ) 
来 衡量 的 。 计 算 的 时 间 显 然 和 问题 的 大 小 有 关 。 比 如 对 10 000 个 
实数 的 排序 和 对 1 000 000 个 实数 的 排序 ， 所 用 时 间 显 然 不 同 。 因 
此 ,问题 的 大 小 在 衡量 计算 复杂 度 时 是 变量 ,一 般 用 NN 来 表示 。 
而 计算 量 是 太 的 一 个 函数 FIN)。 这 个 函数 的 边界 可 以 用 数学 上 的 
大 0 概念 来 限制 。 如 果 两 个 函数 f({N) 和 g(N) 在 大 0 概念 上 相同 ， 
也 就 是 说 当 N 入 趋 近 于 无 穷 大 时 ， 它 们 的 比值 只 差 一 个 常数 。 比 如 
f(N) = N .log N,g(N) = 100.N .log(N)， 它们 就 被 看 成 是 同一 数量 级 
的 。 同 样 ， 如 果 两 个 计算 机 算法 的 计算 在 大 0 概念 下 相同 ， 只 相差 
一 个 常数 ,我们 认为 它们 的 计算 复 区 度 相同 。 


计算 的 复杂 度 关键 看 00 里 面 的 函数 ， 而 不 是 常数 。 比 如 假定 两 个 算 
法 的 计算 量 分 别 是 10000 .WN -log (N) 和 0.00001.N?: ,虽然 前 者 的 常数 
大 得 多 ,但 是 当 N 趋 近 于 无 穷 大 时 ， 后 者 的 计算 量 是 前 者 的 无 穷 大 
倍 。 对 于 这 两 个 算法 ， 我 们 把 它们 的 计算 复杂 度 分 别 写 作 O(CNiog N) 
和 ON’)。 


如 果 一 个 算法 的 计算 量 是 NN 的 多 项 式 汞 数 (Polynomial Function ) ， 则 
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认为 这 个 算法 是 多 项 式 郴 数 复杂 度 的 。 如 果 一 个 问题 存在 一 个 多 项 式 
函数 复 洒 度 的 算法 , 则 这 个 问题 称 为 了 问题 (Polynomial 的 首 字母 ) 。 
如 果 计 算 量 比 六 的 多 项 式 函 数 还 高 ， 虽 然 从 理论 上 讲 如 果 有 无 限 的 时 
间 也 是 可 以 计算 的 (图 灵机 概念 下 的 可 计算 ) ， 但 是 实际 上 是 不 可 计 
算 的 。 这 时 称 它 为 非 多 项 式 (Nen- deterministic polynomial， 简称 
NP ) 问题 。 比 如 找到 每 一 步 围棋 的 最 佳 走 法 就 是 NP 问题 。 


如 果 一 个 NP 问题 ， 虽 然 它 找 不 到 多 项 式 函 数 复 杂 度 的 算法 ， 但 是 对 
于 一 个 算法 可 以 在 多 项 式 函 数 复 杂 度 的 时 间 里 证 实 这 个 方法 正确 与 
否 ， 那 么 这 个 问题 成 为 NP-Complete 问题 。 如 果 一 个 问题 ， 它 的 计 
算 复杂 度 至 少 是 NP-Complete， 那 么 它 被 称 为 NP-Hard 问题 ，NP- 
Complete 和 MNP-Hard 的 关系 如 下 。 


NP - Hard 


NP - Complete 





A.1 NP-Complete 问题 是 NP-Hard 问题 的 特例 


后 记 


很 多 朋友 问 我 ， 为 什么 我 会 想起 来 写 这 个 系列 ? 虽然 谷歌 黑板 报 的 本 
意 是 希望 我 从 一 个 Google 科学 家 的 角度 介绍 一 下 Google 的 技术 , 但 
是 我 更 希望 让 做 工程 的 年 轻 人 看 到 在 信息 技术 行业 正确 的 做 事情 方 
法 。 无 论 是 在 美国 还 是 在 中 国 , 我 经 常 看 到 大 部 分 软件 工程 师 在 一 个 
未 知 领域 部 是 从 直观 感觉 出 发 ， 用 “次 ”的 方法 来 解决 问题 ， 在 中 国 
尤其 如 此 。 这 样 的 做 法 说 得 不 好 听 ，, 就 是 山寨 。 我 刚 到 Google 时 ,发 
现 Google 早期 的 一 些 算法 (比如 拼写 纠 错 ) 根本 没有 系统 的 模型 和 
理论 基础 ， 就 是 用 的 词组 或 者 词 的 二 元 组 次 出 来 的 。 这 些 方法 比 没 
有 做 任何 事情 是 好 一 些 , 但 是 几乎 没有 完善 和 提高 的 可 能 而且 使 
得 程序 的 逻辑 非常 混乱 。Google 成 长 壮大 后 ,渐渐 有 实力 从 世界 上 
最 好 的 大 学 招 理论 基础 非常 好 的 工程 师 ， 工 程 的 正确 性 得 到 了 很 好 保 
证 。2006 年 后 ， 我 指导 了 三 四 个 美国 名 校 的 研究 生 ， 把 Google 的 
拼写 纠 错 模型 用 隐 含 马尔 可 夫 模 型 的 框架 统一 起 来 。 在 那 几 年 里 ， 
Google 对 几乎 所 有 项 目的 程序 进行 了 重 写 ， 山 寨 的 东西 基本 上 看 不 
到 了 。 但 是 在 其 它 公 司 里 ， 包 括 在 美国 一 些 还 挂 着 高 科技 头衔 的 二 流 
IT 公司 里 ， 这 种 情况 依然 很 普遍 。 在 国内 ， 创 业 的 小 公司 做 事情 重 
量 不 重 质 ， 倒 也 无 可 厚 非 ; 但 是 ， 上 了 市 、 有 了 钱 甚 至 利润 成 为 了 在 
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世界 上 也 数 得 上 的 公司 ， 做 事情 依然 如 此 ， 就 让 人 觉得 境界 低 。 另 一 
方面 ， 这 些 公司 在 盖 大 楼 和 装修 高 管 的 办 公 室 上 很 快 超越 了 世界 上 的 
路 国 公 司 。 这 就 像 一 个 人 有 了 钱 ， 穿 金 戴 银 ， 内 在 的 学 问 和 修养 却 没 
有 提高 一 样 。 因 此 我 写 这 些 东 西 也 是 希望 我 们 这 些 IT 公司 的 工程 主 
管 们 能 够 带领 自己 的 部 门 提高 工程 的 水 平 。 


(无 意 中 ) 采用 错误 的 模型 在 特定 的 场 含 ， 或 许 勉强 有 效 ， 就 比如 我 们 
介绍 的 地 心 说 一 样 ， 毕 竟 也 使 用 了 几 千 年 。 但是， 错误 的 模型 终究 是 远 
离 真理 的 ， 其 负面 影响 会 渐渐 表现 出 来 。 其 结果 不 仅仅 在 于 远离 了 正确 
的 结果 ,而 且 常 常 把 原本 简单 的 事情 弄 得 很 复杂 ， 以 至 于 最 终 要 出 演 ( 地 
心 说 对 于 日 心 说 就 是 如 此 ) 。 


正确 的 理论 和 方法 有 一 个 被 认识 的 过 程 。 任 何事 物 都 有 它 的 发 展 规律 ,而 
这 些 规律 都 是 可 以 认识 的 ， 在 信息 科学 领域 也 不 例外 。 当 我 们 认识 了 规 
律 后 ， 就 应 该 自觉 地 在 工作 中 遵循 规律 而 不 要 违背 规律 。 香 农 博士 就 是 
揭示 了 信息 科学 发 展 规律 的 人 ， 它 的 信息 论 在 很 大 程度 上 指出 了 我 们 今 
天 信息 处 理 和 通信 根本 的 规律 性 。 这 里 ， 通 信和 包括 人 类 的 一 切 交 流 ， 包 
括 自然 语言 处 理 的 所 有 应 用 。 而 当初 我 与 这 个 系列 博客 ， 就 是 要 介绍 这 
些 信息 处 理 的 规律 性 。 


当然 ， 将 数学 的 东西 讲 清楚 让 外 行 都 能 读 懂 是 一 件 非 常 难 的 事情 。 我 自 
认为 自己 是 一 个 能 深入 浅 出 的 人 ,但 是 当 我 第 一 次 将 所 写 的 几 章 送 给 非 
工程 专业 的 读者 阅读 时 ， 他 们 还 是 表示 非常 费劲 。 因 此 ,我 后 来 下 了 很 多 
功夫 将 这 个 系列 写 得 浅显 易 履 ， 这样 很 多 细节 只 能 省 略 ， 我 并 不 满意 。 高 
开 Google 后 ,写作 起 来 约束 相对 少 了 些 ， 因 此 这 次 改写 成 实体 书 时 ， 可 
以 多 介绍 一 些 细 节 。 同时 , 由 于 篇 幅 不 受 约束 , 我 也 可 以 多 提供 一 些 细节 ， 
以 照顾 一 下 工程 背景 较 好 的 、 愿 意 了 解 细节 的 读者 。 当 我 完成 这 本 实体 
书 时 ， 我 发 现 全 书 的 内 容 完全 重 写 了 一 遍 。 


对 于 非 IT 的 从 业 人 员 ， 我 也 希望 这 本 书 能 够 成 为 他 们 茶余饭后 消遣 的 科 
普 读 物 。 透 过 对 IT 规律 性 的 认识 ,读者 可 以 举一反三 地 总 结 、 学 习 、 认 
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识 和 自觉 使 用 自己 工作 中 的 规律 性 ， 这 样 有 助 于 将 自己 的 境界 提升 一 个 
层次 。 


对 我 这 次 写作 帮助 最 大 的 是 两 本 书 和 一 个 节目 。 我 在 初中 时 读 了 《从 1 
到 无 穷 大 》 ， 介 绍 宇宙 的 科普 读物 。 作 者 G :+ 伽 莫 夫 ( George Gamow ) 
是 美 籍 俄 痪 著名 物理 学 家 ， 他 花 了 很 多 时 间 创 作 科普 读物 ， 影 响 了 一 代 
人 。 第 二 本 书 是 物理 学 家 夫 金 的 《时 间 简 史 》， 堆 金 把 深奥 的 宇宙 学 原 
理 用 最 简单 的 语言 讲 出 来 ， 让 这 部 科普 读物 称 为 全 球 的 畅销 书 。 影 响 我 
的 一 个 节目 是 美国 主持 人 摩根 . 弗 里 紧 的 “穿越 虫 洞 ”。 我 的 写作 大 多 
是 在 飞机 上 完成 的 , 写作 累 了 便 看 看 电视 节目 , 一 次 碰巧 找到 “穿越 虫 洞 ” 
这 个 节目。 弗 里 曼 把 当今 最 前 窜 的 物理 学 做 成 了 用 每 个 人 都 能 复 的 节 
目 。 节 目 中 有 包括 很 多 诺 贝 尔 奖 在 内 的 一 流 物 理学 家 和 数学 家 介绍 他 们 
的 工作 ,这 些 人 有 一 个 共同 的 本 领 ， 就 是 把 他 们 自己 领域 最 深奥 的 道理 
用 很 简单 的 比喻 介绍 清楚 。 我 想 这 可 能 是 他 们 成 为 世界 顶级 科学 家 的 原 
因 ， 他 们 一 方面 对 自己 的 领域 非常 精通 ， 同 时 他 们 能 把 道理 讲 清楚 。 世 
界 上 最 好 的 学 者 总 是 可 以 深入 浅 出 把 大 道理 讲 给 外 行 听 , 而 不 是 故弄玄虚 
把 简单 的 问题 复杂 化 。 因 此 , 在 写 这 本 书 的 时 候 ， 我 自己 一 直 以 霍金 、 伽 
莫 夫 为 榜样 ,力图 将 数学 之 美展 现 给 所 有 的 ， 而 不 仅仅 是 专业 的 读者 。 为 
了 方便 读者 利用 茶 前 饭 后 的 时 间 阅 读 ， 我 尽 可 能 地 做 到 每 一 章 之 间 相 对 
独立 自 成 一 体 ， 这 样 读 起 来 不 会 太 累 ， 我 知道 让 大 部 分 读者 从 头 到 尾 读 
一 本 以 数学 为 主 的 书 是 几乎 不 可 能 的 。 


闫 和 军 


2012 年 和 4 月 于 深圳 


1 
原 书 名 “One,Two, 
Three,-…,Infinity” 
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A 

Aipha 服务 路 100 

AHaVista ( 搜索 引擎) ”100 

Android (〈 开源 操作 系统 ) 1 

Ascorer ( Google 的 排序 算法 ) 121 

AT&T 实验 室 ( AT&TLabs ) 78,198 

阿尔 弗 雷 德 : 斯 伯 格 特 (Alfred Spector ) 23 

阿兰 : 图 灵 (AlanTuring) 16 

阿 米 特 - 辛 格 (Amit singhal ) 121 

艾 里 克 : 布 菜 尔 (EricBril ) ”197,200,202 

艾 伦 . 纽 维尔 ( Allen Newel ) TV 

安 德 烈 ' 马尔 可 夫 ( Andrey Markov 儿 俄 
罗斯 数学 家 ) 52 

安德鲁 . 维特 比 ( Andrew Viterbi ) 227 


B 

Basis Technology 公司 ( Basis Technolo- 
By) 44 

BOR 算法 75,76 

巴菲特 ( Warren Buffet ) ”78,182 

鲍 姆 (Leonard E. Baum ) 【美国 数学 家 ) 

22 

鲍 姆 - 韦 尔 奇 算法 ( Baum-Welch Algori- 
thm ) 52,57,58,243 

贝尔 实验 室 (BellLabs ) 67,76,198 

贝克 夫妇 (Jamesand Janet Baker ) 55,75 

贝 叶 斯 公式 ( Bayesian Formula ) 51212, 
213 


贝 叶 斯 网 络 ( Bayesian Networks ) 211 
~218, 223 

本 伯 南 克 ( Ben Bernanke ) 20,21,27, 
28, 220 

比尔 默 (JeffBilmer ) 《教授 ) 215, 218 

比特 ( Bit ) “60~62, 143, 144, 190, 206~ 
208 

彼得 布衣 (Peter Brown ) 24,75 

上 毕 达 格拉 斯 (Pythagoras ) ”173 

边缘 分 布 ( Marginal Distribution ) ”223 

边缘 概率 ( Marginal Probability ) 30 

遍历 算法 ( Taverse ) ”89~92 

表决 权 ( Voting Power } ”101 

宾夕法尼亚 大 学 ( University of Pennsyl- 
vania ) 19, 25, 67, 115, 124, 179, 
197~200, 225 

宾夕法尼亚 大 学 LDC 语料库 ( Linguistic 
Data Consortium ) 198 

波 尔 (L.Bahl) 75,76 

伯 顿 ， 布 隆 (Burton Bloom ) ”206 

伯 克 希 尔 哈 后 韦 ( Berkshire Hathaway ) 182 


博 弃 论 ( Game Theory ) ”161,216 
布尔 ( George Boole ) 82~87,105 


ee 


布尔 运算 (Boolean Operation ) 82, 
84~87,89, 105 

布朗 大 学 ( Brown University ) 219 

布 隆 过 滤器 ( Bloom Filter ) ”205~210 

布 瓦尔 ( Alexis Bouvard ) (法国 天 文学 
家 ) 俩 
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C 

CDMA2000 (3G 通信 标准 ) 236 

CLSP 实验 室 ( Center for Language and 
Speech Processsing ) 77,227 

CoNLL ( Conference on Computational 
Natural Language ) 202 

Cookie ( 浏览 器 ) 145 

CopyCat《 拷贝 猫 ) 148 

草 培 ( Pei Cao ) 208 

查 菲 ( DsL 之 父 ， 美 国 工程 院 院 士 ) 
237 

查询 (Query) 27,47, 84, 85, 87, 99, 100,， 
102,105, 106, 108, 114, 128, 146, 246 

长 程 的 依赖 性 (tong Distance Depend - 
ency) 33 

超 链接 ( Hyperlinks ) 

陈省身 (教授) ”24 

出 链 (Out Link ) 166 

词 频 ( 关键 词 的 频率 ， 单 文本 词汇 频率 ) 

1065, 107,190 

单 文本 词 频 / 逆 文 本 频率 指数 ( TF-IDF ) 
68, 105, 107~110, 128, 129, 138, 151, 176, 
194,239 

词性 (Part of Speech ) 18,19,24,225 

词性 标注 ( Part of Speech Tagging ) 20, 
21,58,180,198, 203 

茨 威 格 (Geoffrey Zweig ) ( 博士 ) 
215, 218 


92,96 


( Term Frequency ) 


D 

DARPA ( Defense Advanced Research 
projects Agency ) 198 

DEC ( 数字 设备 公司 ) 100 

Dragon 公司 75 


达 拉 皮 垂 挛 生 兄弟 (5. Deila Pietra & V 
Deila Pietra ) 181,182 

达 诺 奇 {J.N. Darrocch ) 181 

达 特 茅 斯 学 院 17,22 

大 词汇 量 连 续 语 彰 识 别 系 统 Sphinx 55, 
69 

大 数 定理 ( Law of Large Numbers ) 30， 
33, 233 

大 卫 : 雅 让 斯 基 (David Yarowsky ) 
67,132,197 

迪奥 多 西 一 世 (Theodosius!) 5 

地 心 说 (Geocentric) ”169~174,176,191 

第 谷 {Tycho Brahe ) 175 

点 击 率 (CTR) (Click Through Rate ) 

246~249 

调度 系统 (Scheduler) 96 

动态 规划 ( Dynamic Programming ) 
43,111,115~117, 1]20, 191 193, 228 

独立 磁盘 元 余 阵 列 ( RAID ) ”125 

旋 (图 } (Degree) 94 

对 中 基金 (Hedge Fund ) ”24,180, 182 

多 项 式 时 间 内 解决 的 问题 ( Polynomial 
Problem ) 20 

多 义 性 《Disambiguation ) ”14,22 


EMNLP ( Conference on Empirical 
Methods on Natural Language 
Processing ) 202 

EM 过 程 ( Expectation-Maximization ) 
58, 217 


额外 的 时 间 ( Overhead Time ) 95,252 
思 斯 勒 (Jason Eisner ) 200,201 


二 义 性 (歧义 性 ) (Ambiguation ) 


42,45,66 
二 元 神 型 (Bigram Model ) 
37,38,64,19,194,195 


29, 30, 32, 


F 

券 译 模 型 (Translation Model ) 54 

楚 蒂 网 〈《Vatican ) 174 

非 罗 马 拼音 式 语 言 ( Non-Roman Langu- 
ages) 185 

腓 尼 基 人 人 (Phoenician) 10 

费尔南多 ， 皮 耶 尔 ( Fernando Pereira ) 
78, 114, 123 

费 罗 ( David Filo ) 《雅虎 联合 创始 人 ) 

99 

分 词 ( Segmentation ) 

分 词 器 ( Segmentor ) 

分 界 符 (Delimit ) 41 

冯 “， 诺 伊 曼 (Von Neumann ) 145 

冯 雁 (Pascale Fung ) (教授 ) 79 

凤 巢 系统 (百度 ) 246 

绅 里 德里 克 ' 村 里 尼克 {( 弗 莱 德 ) 
( Frederick Jelinek ) 23,39,55 

砷 洛 里 安 (Radu Florian ) ”132,133 


41~48, 220, 228 
41~48 


G 

G1 ( 第 一 款 Androjd 手机 ) 1m 

GB2312 189 

CBK 189 

Gparser《 Google 文法 分 析 器 ) 225 

伽利略 (Galileo Galilei ) ”169,175 

改进 迭代 算法 (1lS ) (Improved [tera- 
tive Scaling ) _ 181 

概率 的 总 最 ( Probabijity Mass ) 35 

概率 图 模型 (Probabilistic Graph Mo- 
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del ) 222,223 

钢琴 卷 ( Piano Roll ) ”233 

高 德 纳 (Donald Knuth ) ”21 

高 斯 白 噪音 (Gaussian White Noise) 

165 

高 通 公司 (Qualcomm ) ”227,236,237 

哥 日 尼 (Nicolaus Copernicus ) 169, 
T74 

哥伦比亚 大 学 ( Columbia University ) 

78,79, 202 

村 尼斯 堡 ( Konigsbere ) 389,90,93,94 

格 利 高 里 日 历 (Gregory Calendar ) 
173 

格 利 高 时 十 三 世 ( Pope Gregory Xlll )( 教 
皇 ) 7173,174 

更 显 平 (博士 ) 44 

个 性 化 的 语言 模型 ( Personalized Langu- 
age Models ) 193,194 

公 和 铀 (Public Key ) 159 

共 稀 矩阵 ( Conjugate Matrix ) 141 

构词法 { Morphologic) 18 

证 德 (1.J.Good) 34,35,37 

古 德 - 图 灵 佑 计 ( Good-Turing Estimate ) 
34,35,37 

关 键 词 (KeyWord) 63,84,86,99, 
105,106,108~110, 114, 163, 164, 248 

广度 优先 搜索 (BFS ) (Breadth -First 
Search ) 91 

告 实 验 室 ( 微软 ) 《AdCenter Lab ) 203 

归并 排序 ( Merge Sort ) ”252 

郭 进 42,44,48 

郭 士 纳 (Louis Gerstner ) 77 

国防 工业 公司 雷神 ( Raytheon ) ”228 

国家 安全 局 (NSA ) 123 
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HH 

哈 希 表 ( Hash Table ) 
144,146, 205,206 

哈 希 函数 (Hash Function ) ”207,208 

海 蒂 : 拉 玛 尔 (Hedy Lamarr ) ”233 

赫 伯 特 : 西藏 (Herbert Simon) 17 

茜 尔 里 ， 内 伊 (Herman Ney) 37 

亨利 西 (John Hennessey ) (RISC 的 发 
阴 人 ,斯 坦 福 大 学 校长 ) 237 

后 验 概率 ( Posterio Probability ) 217, 
218 

互联 网 漫游 者 ( WWW Wanderer ) 93 

互信 息 ( Mutualinformation ) ”65~68,217 

怀特 兄弟 (Wright Brothers) 18 

黄道 (Ediptic) 171 

浑 天 说 171 


93, 96, 97, 143, 


| 

IBM 阿 莫 顿 实验 室 (Amaden Research 
Labs) 76 

ICASSP 39,74,76 

inktomi 100 


J 

Javascript( 脚本 语言 ) 96,166 

机 器 翻译 (Machine Translation ) 7 
14, 18, 20, 24, 26, 27., 31, 44, 46, 49, 50, 
54, 55, 57, 66, 68, 69, 75, 180, 182, 19%, 
222,228 

机 器 人 (Robot ) 《网 络 忠 虫 ) ”93 

机 器 学 习 ( Machine Learning ) 4,58, 
63, 122, 124, 199, 201, 202, 217, 226， 
239, 242, 243 


基于 变换 规则 的 机 器 学 习 方 法 《Trans- 
Formation Rule Based Machine 
Learning ) 202 

基于 加 密 的 伪 随 机 数 产 生 器 ( 简称 
CSPRNG ) (Cryptographically Secure 
Pseudo-Randorm Number Cenerator ) 

145 

吉姆 、 赛 荧 斯 (jimSimons) 24 

集合 论 (SetTheory) 89 

计算 复杂 度 ( Computational Complexi- 
ty) 23,22,117,134,142,217,219 

加 里 宁 格 勒 ”89 

加 权 的 有 限 状 态 传 感 器 ( 简称 WFST ) 

( Finite State Transducer) 119 

加 权 图 ( Weighted Graph ) 115.16 

加 州 理工 学 院 (Caltech) 也 

雅 格 布 森 ( Roman Jakobson ) ”50,74 

假 阳 性 ( False Positive ) ”207,208 

刻 桥 大 学 (Cambridge University ) 
82,107 108, 200, 202 

焦耳 (james Pioule ) (物理 学 家 ) 
83 

解 卷 积 ( Deconvolution ) 165 

近世 代数 89 

纠 错 模 型 ( Correction Model) 54 

句法 分 析 《〈Sentence Parsing ) 18~20, 
22,24,26,124,180,219~223 

聚 类 ( Clustering ) 4,14,137,142,215,216, 
239~244 


卷 积 ( Convolution ) ”165, 201 


K 
卡 滨 (5. M. Katz ) (1BM 科学 家 ) 37, 
39,125 


卡 荧 退 避 法 ( Katz backo 作 ) 37 

卡 内 基 - 梅 隆 大 学 (Carniege Mellon 
University ) 23,31,55,76,77 

凯 茨 (Randy Katz ) ( 教授 , RAID 发 明 人 ) 
125 

愧 撒 (julius Caesar ) ”155,156,160 

康德 (immanuel Kant 】)( 哲学 家 ) 
89 

奈 尔 大 学 【Cornell University ) 74, 

108, 125 

柯南 - 道 尔 (Sir Arthur ignatius Conan 
Doyle ) 156 

科 克 《Cork ) 《爱尔兰 ) ”82 

可 信和 度 (Belief) 212 

克 朱 德 诺 (Kladno) 72 

克 劳 第 斯 . 托 勒 密 ( Claude Ptolerny 儿 数 
学 家 ， 天 文学 家 ) 169 

克 里 特 岛 (Crete ) 10 

空间 复杂 度 ( Space Complexity) 32 

空气 动力 学 18 

库 尔 贝克 ( Solomon Kullback ) 68 

库 克 (外 Cocke ) 75,76 

扩 频 传输 《Spread-Spectrum Transmis- 
sion ) 234 


L 

Linkabit 公司 232 

拉 法 特 (John Laffety ) 75 

拉 杰 : 雷 迪 (RajReddy) 23 

拉 里 . 佩 奇 (Larry Page) 
124 

拉 纳 帕 提 ( Adwait Ratnaparkhi ) 179 

拉 特 克利 夫 ( D. Ratcliff ) 181 

拉 维 夫 (JRaviv) 75 


100~104, 
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莱 伯 勒 ( Richard Leibler ) 68 

莱 布 尼 兹 【Gottfried Leibniz ) ”82 

离散 数学 (Discrete Mathematics ) 
89 

篇 笃 图 (Lattice ) ”192, 228, 229 

联合 概率 (Joint Probability ) ”30, 64,213， 
218, 219, 223 

梁 南 元 4148 

零 概 率 ( 问题 ) (Zero Probability ) 
33,34,36,38,104 

罗宾逊 ( Robinson ) (剑桥 大 学 ) 108 

罗马 式 语 言 ( Roman Languages ) 10, 185 

罗曼 . 罗兰 ( Roman Rolland) 71 

罗切斯特 ( Nathaniel Rochester) 17 

罗 塞 塔 (Rosetta) 531 

池 辑 回归 (Logistic Regression, Logistic 
Model ) 245~249 

逻辑 回归 函数 ( Logistic Regression Func- 
tions ) 249~251 

逻辑 曲线 (Logistic Curve ) 247 

洛杉矶 加 州 大 学 (UCIA) 230 


M 
MapReduce 102,104,122,140,182 
MATLAB 140 
MD5 (算法 ) 


145, 150 





麻 省 理工 学 院 (MIT) 73,77,93,19%,201, 
202.228 
马丁 - 柯 斯 尔 基 ( Martin Kaszkiel ) 122 
马尔 可 夫 过 程 (Markov Process ) 52 
马尔 可 夫 假 设 ( Markov Assumption ) 
29,32 33, 52, 54, 210, 223 


马尔 可 夫 链 ( Markov Chain ) 58,211 
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马其顿 人 {Macedonian) 510 

马 特 : 柯 茨 ( Matt Cutts ) ”122 

马 文 : 明 斯 基 ( Marvin Minsky) 17 

马 体 ' 格雷 ( Matthew Gray) 93 

码 分 多 址 (CDMA ) ”233, 235,236 

迈克 尔 . 柯林斯 ( Michael Collins ) 197 

麦迪 逊 威 斯 康 星 大 学 (Univerisity of 
Wisconsin, Madison ) 208 

锚 文 本 (AnchorText ) ”100 

梅森 旋转 算法 ( Mersenne Twister ) 145 

美国 标准 局 (NIST) 1 

美国 国防 部 123 

美国 著名 的 喷气 推进 实验 室 (JPL) 228 

美国 自然 科学 基金 会 《National Science 
Foundation ) 《简称 NSF) 198 


美 索 不 达 米 亚 ( Mesopotamia ) 10,170 
蒙特 卡 罗 (Monte Carlo ) 217 
米奇 . 马 库 斯 ( Mitch Marcus ) ”25,67,197 


命中 这 ( Hits ) 107 

模式 (Pattern) 39,55,75,226, 242 

摩西 . 怡 里 卡尔 ( Moses Charikar ) 
150 

莫 瑞 ( Mehryar Mohri ) 114,115 

木 谷 实 ( 日 本 著名 的 围棋 教育 家 ) 199 


N 

NP 完备 问题 ( NP-Complete) ”214 

N 元 模型 (N-Gram model) 32 

南 加 州 大 学 (University of Southern 
California ) 228 

尼古拉斯 . 凯 奇 ( Nicolas Cage ) ”123 

逆 文 本 频率 捐 数 (Inverse Document 
Frequency) (IDF) 107 108,148 


鸟 飞 派 18 


牛顿 ( |ssac Newton ) 
202 

纽约 大 学 ( New York University ) 114 

诺 威 格 (Peter Norvig) 78 


87, 169, 171, 175， 


oO 

Overture【( 搜索 广告 公司 ) 245 

欧 几 里 德 ( Euclid ) Ti 

网 拉 ( Leonhard Euler ) (数学 家 ) 89 
欧 拉 七 桥 问 题 93 

欧 这 :雅克 布 斯 (Irwin MarkJacobs ) 227 
欧洲 语音 大 会 ( Eurospeech ) 79 


P 

PageRank 算法 〔 网 页 排名 ) 

Panama 系统 (雅虎) 246 

Penn Tree Bank ( 语料库 ) 198 

Phil Cluster (Google ) 216 

潘 迪 特 (Vikram Pandit ) ”202 

皮 埃 尔 - 弗 朗 索 瓦 ' 布 沙 尔 (Pierre- 
FranAois Bouchard) 5 

拼写 纠 错 (Spelling Correction ) 27, 
55 

拼音 文字 ( Spelling Language ) 5.10 

频 分 多 址 (Frequency Division Multiple 
Access ) (FDMA) 235 

平滑 过 渡 的 方法 ( Smoothing Method ) 

38 


101,166 


0 

期 望 景 大 化 算法 ( EM 算法 )( Expectation 
Maximization Algorithm ) 239 

奇异 值 分 解 (Singular Value Decom- 


position } 138,140~142,215 

干 次 搜索 有 量 带 来 的 收入 ( Revenue Per 
Millenium Page Views ) (RPM ) 
245 

浅 层 分 析 (Shailow Parsing ) ”221 

乔 姆 斯 基 ( Noam Chomsky )( 语 高 学 家 ) 
7 和 

乔治 安泰 尔 ( George Antheil X 作曲 家 ) 
233 

治 . 伽 莫 夫 (George Gamow) 7 
厅 褒 (KennethChurch) 57 
球 坐 标 ( Global Coordinate ) “171 


R 

Rephil ( Googie ) 
RSA-158 161 

让 ， 约 县 夫 ; 马 完 人 R (JeanJoseph Marcel| ) 5 
人 工 标记 (Human Annotated ) 56 
日 心 说 (Heliocentric) 174,176 

宛 余 度 (Redundancy) 61 
倒 路 历 (Julian Calendar ) 
瑞 利 〈Michael Riley ) TI4 


215,277 


U3, U4 


9 

SHA-1( 算 法) 145 

SysTran( 翻译 公司 ) 20,24 

萨 尔 顿 ( 5alton ) (教授 ) 108,125 

赛 珍 珠 ( Pearl S. Buck ) 《〈 诺 贝 尔 文学 
奖 获得 者 ) ) 158 

沙 必 (FeiSsha) 225,226 

删除 插值 法 ( Deleted tnterpolation ) 
38 

商 博 良 ( jean-FranAois Chnampoltion } 5 

上 下 文 无 关 文 法 ( Context Independent 
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Grammar ) 21,22 

深度 优先 搜索 (Depth-First Search ) 
(DFS) 91 

生成 概率 ( Generation Probability ) 56, 
193 

生物 信息 学 ( Bioinformatics ) 199,200 

声学 模型 ( Acoustic Model ) ”54, 75 

圣地 亚 哥 加州 大 学 (UCSanDiego) 230 

时 分 多 址 (Time Division Multiple 
Access ) (TDMA) 235 

时 间 复 杂 度 (Time Complexity) 33, 
146 

世界 的 知识 《World Knowledge ) 22 

数据 挖掘 (Data Mining ) 25, 26, 48， 
203,248 

数理 逻辑 ( Digital Logic ) 89 

双 对 角 算 阵 ( Pual-diagonal Matrix ) 
142 

水 门 事件 (Watergate ) ”74,76 

私 铀 ( Private Key ) ”159,160 

斯 巴克 . 琼斯 ( Karen Spirck Jones ) ”107 

斯 坦 福 大 学 ( Stanford Unversity) 69, 
76, 78, 103, 104 

搜索 广告 (Search Ads ) 245 

搜索 引 警 优化 者 (Search Engine 
Optimizer ) (SEO) 166 

随机 过 程 ( Stochastic Process ) ”52,55 

孙 芒 松 4448 


T 

太阳 纪 8 

贪 焚 算法 (Greedy Algorithm ) 217 

特征 向 时 (Feature Vector) 127, 129， 
130, 132, 133, 142, 194, 215 
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关 狼 星 ( sirius ) ”170 

条 件 炉 ( Conditional Entropy ) 
68,69 

条 件 概 率 ( Conditional Probability ) ”29, 
30, 33, 34, 36, 37, 51, 56, 64, 195, 212， 
216, 217 

条 件 随机 场 (Conditional Random 
Field ) 219, 222~226 

停止 词 (Stop Word ) 106 

通信 标准 CDMA1 236 

通用 迭代 算法 (Generalized lterative 
Scaling ) (GIS) 181, 242~244, 
249 

统计 语言 模型 (Statistical Language 
Model) 27 

止 函 数 ”58,195,244 

图 灵 奖 17,21,23 

论 (Graph Theory ) 89, 90, 92, 97, 
113,115, 16, 118,143,166, 227 

托 勒 密 五 世 ( PtolemyV) 6 

托马斯 . 科 弗 (Thomas Cover ) 69,78 


64, 66, 


U 

UAI ( Association for Uncertainty in 
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完备 的 搜索 ( Exhaustive Search ) 237 
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文法 分 析 器 (Gparser) 225 
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先 验 的 经 验 ( Prior Experience ) 242 

线性 插值 (Linear Interpolation ) ”38, 
195 


相对 频 度 ( Relative Frequency ) ”30,35~38 


相对 燃 ( 交叉 粳 ，KL 距离 ) ( Relative 
Entropy, Kullback-Leibler 

65,68, 69 

相关 性 信息 (Relevance ) (网 页 ) 99 
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26 
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约翰 - 麦卡锡 (John McCarthy) 717 
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张衡 171172 
张 智 威 ( Edward Chang ) 140 
纸 落 草 纸 ( Papyrus) 3 
指数 冰 数 ”32,179, 223 
质量 信息 (Quality) ( 网 页 ) 58,63, 
99 
中 心 (Centroids ) ”239 
重 写 规则 ( Rewrite Rules ) ”19 
朱 安 44 
会 灿 (Google ) ”225 
主题 模型 ( Topic Model ) 215 
转移 概率 ( Transition Probability) 56 
自然 语言 处 理 (Natural Language 
Processing ) 4,6,13~20, 
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65~69, 71 74 15~77, 714, 119, 122~124, 
135, 137, 146, 179, 197~201, 221， 
225~227, 232 
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